آموزش یادگیری تقویتی عمیق 2.0

Deep Reinforcement Learning 2.0

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: هوشمندانه‌ترین ترکیبی از یادگیری عمیق Q، گرادیان خط مشی، منتقد بازیگر و DDPG Q-Learning Deep Q-Learning Policy Gradient Actor Critic Deep Deterministic Policy Gradient (DDPG) Twin-Delayed DDPG (TD3) The Foundation Techniques of Deep Reinforcement Learning چگونه برای پیاده سازی یک مدل پیشرفته هوش مصنوعی که بیش از اجرای چالش برانگیزترین برنامه های کاربردی مجازی است.

به Deep Reinforcement Learning 2.0 خوش آمدید!

در این دوره آموزشی، ما یک مدل هوش مصنوعی فوق‌العاده هوشمند به نام DDPG دوقلو با تأخیر را یاد می‌گیریم و پیاده‌سازی می‌کنیم که تکنیک‌های پیشرفته در هوش مصنوعی از جمله یادگیری مداوم Double Deep Q-Learning، Policy Gradient و Actor Critic را ترکیب می‌کند. . این مدل به قدری قوی است که برای اولین بار در دوره‌های آموزشی ما، می‌توانیم چالش‌برانگیزترین برنامه‌های هوش مصنوعی مجازی را حل کنیم (آموزش یک مورچه/عنکبوت و نیم انسان‌نما برای راه رفتن و دویدن در یک میدان).

برای نزدیک شدن به این مدل به روش صحیح، دوره را در سه بخش ساختار دادیم:

  • قسمت 1: مبانی
    در این قسمت ما تمام مبانی هوش مصنوعی را مطالعه خواهیم کرد که به شما امکان می دهد هوش مصنوعی این دوره را درک کرده و به آن مسلط شوید. اینها عبارتند از Q-Learning، Deep Q-Learning، Policy Gradient، Actor-Critic و موارد دیگر.

  • قسمت 2: تئوری DDPG با تاخیر دوقلو
    ما کل نظریه پشت مدل را به طور عمیق مطالعه خواهیم کرد. شما به وضوح کل فرآیند ساخت و آموزش هوش مصنوعی را از طریق یک سری اسلایدهای تجسم واضح مشاهده خواهید کرد. نه تنها تئوری را با جزئیات یاد خواهید گرفت، بلکه یک شهود قوی از نحوه یادگیری و عملکرد هوش مصنوعی نیز شکل خواهید داد. اصول اولیه در قسمت 1، ترکیب شده با نظریه بسیار دقیق قسمت 2، این مدل بسیار پیشرفته را در دسترس شما قرار می دهد و در نهایت شما یکی از معدود افرادی خواهید بود که می توانید بر این مدل تسلط داشته باشید.

  • قسمت 3: پیاده سازی DDPG با تأخیر دوقلو
    ما مدل را از ابتدا، گام به گام و از طریق جلسات تعاملی پیاده سازی خواهیم کرد، ویژگی جدید این دوره که شما را وادار می کند تا در حین پیاده سازی، روی بسیاری از تمرین های کدنویسی تمرین کنید. مدل. با انجام آنها، دوره را به صورت منفعل دنبال نمی کنید، بلکه بسیار فعالانه دنبال می کنید، بنابراین به شما امکان می دهد مهارت های خود را به طور موثر بهبود بخشید. و در آخر، ما کل پیاده سازی را روی Colaboratory یا Google Colab انجام خواهیم داد، که یک پلتفرم کاملاً رایگان و منبع باز هوش مصنوعی است که به شما امکان می دهد برخی از هوش مصنوعی ها را کدنویسی و آموزش دهید بدون اینکه هیچ بسته ای برای نصب روی دستگاه خود داشته باشید. به عبارت دیگر، شما می توانید 100% مطمئن باشید که دکمه execute را فشار دهید، هوش مصنوعی شروع به تمرین می کند و در پایان فیلم های عنکبوت و انسان نما را دریافت خواهید کرد.


سرفصل ها و درس ها

قسمت 1 - مبانی Part 1 - Fundamentals

  • خوش آمدی Welcome

  • برخی منابع قبل از شروع Some resources before we start

  • جایزه: مسیر یادگیری BONUS: Learning Path

  • Q-Learning Q-Learning

  • Deep Q-Learning Deep Q-Learning

  • طبقه بندی مدل های هوش مصنوعی Taxonomy of AI models

  • EXTRA: 5 مزیت DRL EXTRA: 5 Advantages of DRL

قسمت 1 - مبانی Part 1 - Fundamentals

  • خوش آمدی Welcome

  • برخی منابع قبل از شروع Some resources before we start

  • جایزه: مسیر یادگیری BONUS: Learning Path

  • Q-Learning Q-Learning

  • Deep Q-Learning Deep Q-Learning

  • گرادیان سیاست Policy Gradient

  • گرادیان سیاست Policy Gradient

  • بازیگر- منتقد Actor-Critic

  • بازیگر- منتقد Actor-Critic

  • طبقه بندی مدل های هوش مصنوعی Taxonomy of AI models

  • EXTRA: 5 مزیت DRL EXTRA: 5 Advantages of DRL

  • اضافی: نقشه الگوریتم های RL EXTRA: RL Algorithms Map

  • اضافی: نقشه الگوریتم های RL EXTRA: RL Algorithms Map

  • مواد را دریافت کنید Get the materials

  • مواد را دریافت کنید Get the materials

قسمت 2 - نظریه DDPG تاخیری دوقلو Part 2 - Twin Delayed DDPG Theory

  • مقدمه و راه اندازی Introduction and Initialization

  • بخش Q-Learning The Q-Learning part

  • بخش یادگیری سیاست The Policy Learning part

قسمت 2 - نظریه DDPG تاخیری دوقلو Part 2 - Twin Delayed DDPG Theory

  • مقدمه و راه اندازی Introduction and Initialization

  • بخش Q-Learning The Q-Learning part

  • بخش یادگیری سیاست The Policy Learning part

  • کل فرآیند آموزش The whole training process

  • کل فرآیند آموزش The whole training process

قسمت 3 - اجرای دوقلو با تاخیر DDPG Part 3 - Twin Delayed DDPG Implementation

  • شروع Beginning

  • پیاده سازی - مرحله 2 Implementation - Step 2

  • پیاده سازی - مرحله 6 Implementation - Step 6

  • پیاده سازی - مرحله 8 Implementation - Step 8

  • پیاده سازی - مرحله 13 Implementation - Step 13

  • پیاده سازی - مرحله 16 Implementation - Step 16

  • پیاده سازی - مرحله 17 Implementation - Step 17

قسمت 3 - اجرای دوقلو با تاخیر DDPG Part 3 - Twin Delayed DDPG Implementation

  • کل پوشه کد دوره با تمامی پیاده سازی ها The whole code folder of the course with all the implementations

  • کل پوشه کد دوره با تمامی پیاده سازی ها The whole code folder of the course with all the implementations

  • شروع Beginning

  • پیاده سازی - مرحله 1 Implementation - Step 1

  • پیاده سازی - مرحله 1 Implementation - Step 1

  • پیاده سازی - مرحله 2 Implementation - Step 2

  • پیاده سازی - مرحله 3 Implementation - Step 3

  • پیاده سازی - مرحله 3 Implementation - Step 3

  • پیاده سازی - مرحله 4 Implementation - Step 4

  • پیاده سازی - مرحله 4 Implementation - Step 4

  • پیاده سازی - مرحله 5 Implementation - Step 5

  • پیاده سازی - مرحله 5 Implementation - Step 5

  • پیاده سازی - مرحله 6 Implementation - Step 6

  • پیاده سازی - مرحله 7 Implementation - Step 7

  • پیاده سازی - مرحله 7 Implementation - Step 7

  • پیاده سازی - مرحله 8 Implementation - Step 8

  • پیاده سازی - مرحله 9 Implementation - Step 9

  • پیاده سازی - مرحله 9 Implementation - Step 9

  • پیاده سازی - مرحله 10 Implementation - Step 10

  • پیاده سازی - مرحله 10 Implementation - Step 10

  • پیاده سازی - مرحله 11 Implementation - Step 11

  • پیاده سازی - مرحله 11 Implementation - Step 11

  • پیاده سازی - مرحله 12 Implementation - Step 12

  • پیاده سازی - مرحله 12 Implementation - Step 12

  • پیاده سازی - مرحله 13 Implementation - Step 13

  • پیاده سازی - مرحله 14 Implementation - Step 14

  • پیاده سازی - مرحله 14 Implementation - Step 14

  • پیاده سازی - مرحله 15 Implementation - Step 15

  • پیاده سازی - مرحله 15 Implementation - Step 15

  • پیاده سازی - مرحله 16 Implementation - Step 16

  • پیاده سازی - مرحله 17 Implementation - Step 17

  • پیاده سازی - مرحله 18 Implementation - Step 18

  • پیاده سازی - مرحله 18 Implementation - Step 18

  • پیاده سازی - مرحله 19 Implementation - Step 19

  • پیاده سازی - مرحله 19 Implementation - Step 19

  • پیاده سازی - مرحله 20 Implementation - Step 20

  • پیاده سازی - مرحله 20 Implementation - Step 20

نسخه ی نمایشی نهایی! The Final Demo!

  • نسخه ی نمایشی - آموزش Demo - Training

  • نسخه ی نمایشی - استنتاج Demo - Inference

نسخه ی نمایشی نهایی! The Final Demo!

  • نسخه ی نمایشی - آموزش Demo - Training

  • نسخه ی نمایشی - استنتاج Demo - Inference

پیوست 1 - شبکه های عصبی مصنوعی Annex 1 - Artificial Neural Networks

  • طرح حمله Plan of Attack

  • شبکه های عصبی چگونه یاد می گیرند؟ How do Neural Networks Learn?

پیوست 1 - شبکه های عصبی مصنوعی Annex 1 - Artificial Neural Networks

  • طرح حمله Plan of Attack

  • نورون The Neuron

  • نورون The Neuron

  • تابع فعال سازی The Activation Function

  • تابع فعال سازی The Activation Function

  • شبکه های عصبی چگونه کار می کنند؟ How do Neural Networks Work?

  • شبکه های عصبی چگونه کار می کنند؟ How do Neural Networks Work?

  • شبکه های عصبی چگونه یاد می گیرند؟ How do Neural Networks Learn?

  • گرادیان نزول Gradient Descent

  • گرادیان نزول Gradient Descent

  • نزول گرادیان تصادفی Stochastic Gradient Descent

  • نزول گرادیان تصادفی Stochastic Gradient Descent

  • پس انتشار Backpropagation

  • پس انتشار Backpropagation

ضمیمه 2 - Q-Learning Annex 2 - Q-Learning

  • یادگیری تقویتی چیست؟ What is Reinforcement Learning?

  • معادله بلمن The Bellman Equation

  • جریمه زندگی Living Penalty

ضمیمه 2 - Q-Learning Annex 2 - Q-Learning

  • طرح حمله Plan of Attack

  • یادگیری تقویتی چیست؟ What is Reinforcement Learning?

  • معادله بلمن The Bellman Equation

  • طرح The Plan

  • طرح The Plan

  • فرآیند تصمیم گیری مارکوف Markov Decision Process

  • فرآیند تصمیم گیری مارکوف Markov Decision Process

  • سیاست در مقابل برنامه Policy vs Plan

  • سیاست در مقابل برنامه Policy vs Plan

  • جریمه زندگی Living Penalty

  • Q-Learning Intuition Q-Learning Intuition

  • Q-Learning Intuition Q-Learning Intuition

  • تفاوت زمانی Temporal Difference

  • تفاوت زمانی Temporal Difference

  • Q-Learning Visualization Q-Learning Visualization

  • Q-Learning Visualization Q-Learning Visualization

پیوست 3 - یادگیری عمیق Q Annex 3 - Deep Q-Learning

  • طرح حمله Plan of Attack

  • شهود یادگیری عمیق Q - مرحله 1 Deep Q-Learning Intuition - Step 1

  • تکرار را تجربه کنید Experience Replay

  • سیاست های انتخاب اقدام Action Selection Policies

پیوست 3 - یادگیری عمیق Q Annex 3 - Deep Q-Learning

  • طرح حمله Plan of Attack

  • طرح حمله Plan of Attack

  • شهود یادگیری عمیق Q - مرحله 1 Deep Q-Learning Intuition - Step 1

  • شهود یادگیری عمیق Q - مرحله 2 Deep Q-Learning Intuition - Step 2

  • شهود یادگیری عمیق Q - مرحله 2 Deep Q-Learning Intuition - Step 2

  • تکرار را تجربه کنید Experience Replay

  • سیاست های انتخاب اقدام Action Selection Policies

محتوای ویژه Special Content

محتوای ویژه Special Content

  • ***پاداش ویژه شما*** ***YOUR SPECIAL BONUS***

  • ***پاداش ویژه شما*** ***YOUR SPECIAL BONUS***

نمایش نظرات

آموزش یادگیری تقویتی عمیق 2.0
جزییات دوره
9.5 hours
63
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
9,858
4.5 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Hadelin de Ponteves Hadelin de Ponteves

هادلین یکی از بنیانگذاران و مدیر عامل شرکت BlueLife AI است که از قدرت پیشرفته هوش مصنوعی برای توانمندسازی مشاغل برای کسب سود کلان با نوآوری ، خودکارسازی فرایندها و به حداکثر رساندن بهره وری بهره می برد. هادلین همچنین یک کارآفرین آنلاین است که 70 دوره آموزشی الکترونیکی با رتبه برتر در جهان در موضوعاتی مانند یادگیری ماشین ، یادگیری عمیق ، هوش مصنوعی و بلاکچین ایجاد کرده است که به بیش از 1 میلیون دانش آموز در 210 کشور رسیده است.

SuperDataScience Team SuperDataScience Team

کمک به دانشمندان داده برای موفقیت در آنجا ، ما تیم SuperDataScience Social هستیم. هنگام انتشار دوره های جدید SDS ، هنگامی که پادکست های جدید ، وبلاگ ها ، صفحه های اشتراک گذاری و سایر موارد را منتشر می کنیم ، از ما می شنوید! ما در اینجا هستیم تا به شما کمک کنیم در لبه پیشرفته علم و فناوری داده بمانید. در کلاس می بینمت، خالصانه، افراد واقعی در SuperDataScience

Ligency Team Ligency Team

کمک به دانشمندان داده برای موفقیت در آنجا ، ما تیم روابط عمومی و بازاریابی Ligence هستیم. هنگامی که دوره های جدید منتشر می شوند ، وقتی پادکست های جدید ، وبلاگ ها ، صفحه های اشتراک گذاری و غیره منتشر می کنیم ، از ما می شنوید! ما در اینجا هستیم تا به شما کمک کنیم در لبه پیشرفته علم و فناوری داده بمانید. در کلاس می بینمت، خالصانه، افراد واقعی در معرض خطر