آموزش یادگیری تقویتی پیشرفته در پایتون: از DQN تا SAC

Advanced Reinforcement Learning in Python: from DQN to SAC

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: عوامل هوش مصنوعی (AI) را با استفاده از یادگیری تقویتی عمیق و PyTorch بسازید: DDPG، TD3، SAC، NAF، HER. بر برخی از پیشرفته ترین الگوریتم های یادگیری تقویتی مسلط شوید. یاد بگیرید چگونه هوش مصنوعی ایجاد کنید که بتواند در یک محیط پیچیده برای رسیدن به اهداف خود عمل کند. با استفاده از محبوب‌ترین ابزار پایتون (PyTorch Lightning، OpenAI gym، Brax، Optuna) عوامل یادگیری تقویتی پیشرفته را از ابتدا ایجاد کنید. اشکال زدایی و گسترش الگوریتم های ارائه شده. درک و پیاده سازی الگوریتم های جدید از مقالات تحقیقاتی. پیش نیازها: برنامه نویسی در پایتون راحت باشید. دوره آموزشی ما "آموزش تقویتی مبتدی تا مسلط" یا آشنایی با اصول یادگیری تقویتی (یا تماشای بخش های سطح بندی موجود در این دوره) دانستن آمار پایه (میانگین، واریانس، توزیع نرمال)

این کاملترین دوره آموزش تقویتی پیشرفته در Udemy است. در آن، پیاده سازی برخی از قدرتمندترین الگوریتم های یادگیری تقویتی عمیق در پایتون را با استفاده از PyTorch و PyTorch Lightning خواهید آموخت. شما از ابتدا الگوریتم های تطبیقی ​​را پیاده سازی خواهید کرد که وظایف کنترلی را بر اساس تجربه حل می کنند. شما یاد خواهید گرفت که این تکنیک ها را با شبکه های عصبی و روش های یادگیری عمیق ترکیب کنید تا عوامل هوش مصنوعی تطبیقی ​​ایجاد کنید که قادر به حل وظایف تصمیم گیری هستند.

این دوره شما را با آخرین هنر در تکنیک های یادگیری تقویتی آشنا می کند. همچنین شما را برای دوره‌های بعدی این مجموعه آماده می‌کند، جایی که ما روش‌های پیشرفته دیگری را که در انواع دیگر وظایف برتر هستند، بررسی خواهیم کرد.

این دوره بر توسعه مهارت های عملی متمرکز است. بنابراین، پس از یادگیری مهم‌ترین مفاهیم هر خانواده از روش‌ها، یک یا چند الگوریتم آن‌ها را از ابتدا در نوت‌بوک‌های jupyter پیاده‌سازی می‌کنیم.


تراز کردن ماژول ها:


- تجدید کننده: فرآیند تصمیم گیری مارکوف (MDP).

- Refresher: Q-Learning.

- Refresher: معرفی مختصر شبکه های عصبی.

- Refresher: Deep Q-Learning.

- Refresher: روش های گرادیان خط مشی



یادگیری تقویتی پیشرفته:


- PyTorch Lightning.

- تنظیم فراپارامتر با Optuna.

- یادگیری عمیق Q برای فضاهای کنش مستمر (عملکرد مزیت عادی - NAF).

- گرادیان خط مشی قطعی عمیق (DDPG).

- DDPG تاخیری دوقلو (TD3).

- بازیگر ملایم منتقد (SAC).

- بازپخش تجربه Hindsight (HER).


سرفصل ها و درس ها

معرفی Introduction

  • معرفی Introduction

  • سری آموزشی تقویتی Reinforcement Learning series

  • گوگل کولب Google Colab

  • از کجا شروع کنیم Where to begin

  • کد کامل Complete code

  • در شبکه های اجتماعی با من ارتباط برقرار کنید Connect with me on social media

تازه‌سازی: فرآیند تصمیم‌گیری مارکوف (MDP) Refresher: The Markov Decision Process (MDP)

  • نمای کلی ماژول Module Overview

  • عناصر مشترک برای همه وظایف کنترلی Elements common to all control tasks

  • فرآیند تصمیم گیری مارکوف (MDP) The Markov decision process (MDP)

  • انواع فرآیند تصمیم گیری مارکوف Types of Markov decision process

  • مسیر در مقابل قسمت Trajectory vs episode

  • پاداش در مقابل بازگشت Reward vs Return

  • عامل تخفیف Discount factor

  • خط مشی Policy

  • مقادیر v(s) و مقادیر عمل q(s,a) را بیان کنید State values v(s) and action values q(s,a)

  • معادلات بلمن Bellman equations

  • حل فرآیند تصمیم گیری مارکوف Solving a Markov decision process

Refresher: Q-Learning Refresher: Q-Learning

  • نمای کلی ماژول Module overview

  • روش های تفاوت زمانی Temporal difference methods

  • حل وظایف کنترلی با روش های اختلاف زمانی Solving control tasks with temporal difference methods

  • Q-Learning Q-Learning

  • مزایای روش های تفاوت زمانی Advantages of temporal difference methods

Refresher: معرفی مختصر شبکه های عصبی Refresher: Brief introduction to Neural Networks

  • نمای کلی ماژول Module overview

  • تقریبگرهای توابع Function approximators

  • شبکه های عصبی مصنوعی Artificial Neural Networks

  • نورون های مصنوعی Artificial Neurons

  • نحوه نمایش یک شبکه عصبی How to represent a Neural Network

  • نزول گرادیان تصادفی Stochastic Gradient Descent

  • بهینه سازی شبکه عصبی Neural Network optimization

Refresher: Deep Q-Learning Refresher: Deep Q-Learning

  • نمای کلی ماژول Module overview

  • Deep Q-Learning Deep Q-Learning

  • تکرار را تجربه کنید Experience Replay

  • شبکه هدف Target Network

PyTorch Lightning PyTorch Lightning

  • PyTorch Lightning PyTorch Lightning

  • پیوند به دفترچه کد Link to the code notebook

  • مقدمه ای بر PyTorch Lightning Introduction to PyTorch Lightning

  • Deep Q-Network را ایجاد کنید Create the Deep Q-Network

  • خط مشی را ایجاد کنید Create the policy

  • بافر پخش مجدد را ایجاد کنید Create the replay buffer

  • محیط را ایجاد کنید Create the environment

  • کلاس را برای الگوریتم Deep Q-Learning تعریف کنید Define the class for the Deep Q-Learning algorithm

  • تابع play_episode() را تعریف کنید Define the play_episode() function

  • دیتا لودر و بهینه ساز را آماده کنید Prepare the data loader and the optimizer

  • متد ()train_step را تعریف کنید Define the train_step() method

  • متد ()train_epoch_end را تعریف کنید Define the train_epoch_end() method

  • [مهم] تصحیح سخنرانی. [Important] Lecture correction.

  • الگوریتم Deep Q-Learning را آموزش دهید Train the Deep Q-Learning algorithm

  • عامل حاصل را کاوش کنید Explore the resulting agent

تنظیم فراپارامتر با Optuna Hyperparameter tuning with Optuna

  • تنظیم فراپارامتر با Optuna Hyperparameter tuning with Optuna

  • پیوند به دفترچه کد Link to the code notebook

  • بازده متوسط ​​را ثبت کنید Log average return

  • تابع هدف را تعریف کنید Define the objective function

  • کار تنظیم hyperparameter را ایجاد و راه اندازی کنید Create and launch the hyperparameter tuning job

  • بهترین آزمایش را کاوش کنید Explore the best trial

Deep Q-Learning برای فضاهای کنش مداوم (عملکرد مزیت عادی) Deep Q-Learning for continuous action spaces (Normalized Advantage Function)

  • فضاهای کنش مستمر Continuous action spaces

  • تابع مزیت The advantage function

  • عملکرد مزیت عادی (NAF) Normalized Advantage Function (NAF)

  • کد شبه تابع مزیت عادی شده Normalized Advantage Function pseudocode

  • پیوند به دفترچه کد Link to the code notebook

  • مماس هایپربولیک Hyperbolic tangent

  • ایجاد (NAF) Deep Q-Network 1 Creating the (NAF) Deep Q-Network 1

  • ایجاد شبکه (NAF) Deep Q-Network 2 Creating the (NAF) Deep Q-Network 2

  • ایجاد شبکه (NAF) Deep Q-Network 3 Creating the (NAF) Deep Q-Network 3

  • ایجاد شبکه (NAF) Deep Q-Network 4 Creating the (NAF) Deep Q-Network 4

  • ایجاد خط مشی Creating the policy

  • محیط را ایجاد کنید Create the environment

  • پولیاک میانگین گیری Polyak averaging

  • پیاده سازی پولیاک میانگین گیری Implementing Polyak averaging

  • الگوریتم Deep Q-Learning (NAF) را ایجاد کنید Create the (NAF) Deep Q-Learning algorithm

  • مرحله آموزش را اجرا کنید Implement the training step

  • منطق پایان دوران را اجرا کنید Implement the end-of-epoch logic

  • اشکال زدایی و راه اندازی الگوریتم Debugging and launching the algorithm

  • بررسی عامل به دست آمده Checking the resulting agent

Refresher: روش های گرادیان خط مشی Refresher: Policy gradient methods

  • روش های گرادیان خط مشی Policy gradient methods

  • عملکرد سیاست Policy performance

  • نمایش سیاست ها با استفاده از شبکه های عصبی Representing policies using neural networks

  • قضیه گرادیان خط مشی The policy gradient theorem

  • تنظیم آنتروپی Entropy Regularization

گرادیان خط مشی قطعی عمیق (DDPG) Deep Deterministic Policy Gradient (DDPG)

  • موتور Brax Physics The Brax Physics engine

  • گرادیان خط مشی قطعی عمیق (DDPG) Deep Deterministic Policy Gradient (DDPG)

  • شبه کد DDPG DDPG pseudocode

  • پیوند به دفترچه کد Link to the code notebook

  • مهم - کد به روز شده Important - updated code

  • گرادیان خط مشی قطعی عمیق (DDPG) Deep Deterministic Policy Gradient (DDPG)

  • خط مشی گرادیان را ایجاد کنید Create the gradient policy

  • ایجاد خط مشی گرادیان - تصحیح Create the gradient policy - Correction

  • Deep Q-Network را ایجاد کنید Create the Deep Q-Network

  • کلاس DDPG را ایجاد کنید Create the DDPG class

  • روش بازی را تعریف کنید Define the play method

  • روش بازی را تعریف کنید - تصحیح Define the play method - Correction

  • بهینه ساز و دیتالودر را راه اندازی کنید Setup the optimizers and dataloader

  • مرحله آموزش را تعریف کنید Define the training step

  • مرحله آموزش - تصحیح را تعریف کنید Define the training step - Correction

  • فرآیند آموزش را راه اندازی کنید Launch the training process

  • عامل حاصل را بررسی کنید Check the resulting agent

DDPG تاخیری دوقلو (TD3) Twin Delayed DDPG (TD3)

  • DDPG تاخیری دوقلو (TD3) Twin Delayed DDPG (TD3)

  • شبه کد TD3 TD3 pseudocode

  • پیوند به دفترچه کد Link to code notebook

  • مهم - کد به روز شد Important - Code updated

  • DDPG تاخیری دوقلو (TD3) Twin Delayed DDPG (TD3)

  • به روز رسانی سیاست های تاخیری Delayed policy updates

  • بریده دو Q-Learning Clipped double Q-Learning

  • هموارسازی سیاست های هدف Target policy smoothing

  • عامل حاصل را بررسی کنید Check the resulting agent

منتقد-بازیگر نرم (SAC) Soft Actor-Critic (SAC)

  • منتقد-بازیگر نرم (SAC) Soft Actor-Critic (SAC)

  • شبه کد SAC SAC pseudocode

  • پیوند به دفترچه کد Link to code notebook

  • کار رباتیک را ایجاد کنید Create the robotics task

  • Deep Q-Network را ایجاد کنید Create the Deep Q-Network

  • خط مشی گرادیان را ایجاد کنید Create the gradient policy

  • پیاده سازی الگوریتم Soft Actor-Critic - قسمت 1 Implement the Soft Actor-Critic algorithm - Part 1

  • پیاده سازی الگوریتم Soft Actor-Critic - قسمت 2 Implement the Soft Actor-Critic algorithm - Part 2

  • نتایج را بررسی کنید Check the results

بازپخش تجربه Hindsight Hindsight Experience Replay

  • بازپخش تجربه Hindsight (HER) Hindsight Experience Replay (HER)

  • پیوند به دفترچه کد Link to code notebook

  • اجرای مجدد تجربه Hindsight (HER) - قسمت 1 Implement Hindsight Experience Replay (HER) - Part 1

  • اجرای مجدد تجربه Hindsight (HER) - قسمت 2 Implement Hindsight Experience Replay (HER) - Part 2

  • اجرای مجدد تجربه Hindsight (HER) - قسمت 3 Implement Hindsight Experience Replay (HER) - Part 3

  • نتایج را بررسی کنید Check the results

مراحل پایانی Final steps

  • مراحل بعدی Next steps

  • مراحل بعدی Next steps

نمایش نظرات

آموزش یادگیری تقویتی پیشرفته در پایتون: از DQN تا SAC
جزییات دوره
8 hours
121
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,883
4.5 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Escape Velocity Labs Escape Velocity Labs

دوره های عملی و جامع هوش مصنوعی