دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش یادگیری تقویتی پیشرفته در پایتون: از DQN تا SAC

Advanced Reinforcement Learning in Python: from DQN to SAC

در حال بارگزاری نمونه ویدیو، لطفا صبر کنید...

Video Player is loading.

Current Time 0:00

Duration 0:00

Loaded: 0%

Stream Type LIVE

Remaining Time 0:00

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

در حال بارگزاری، لطفا صبر کنید...

توضیحات دوره: عوامل هوش مصنوعی (AI) را با استفاده از یادگیری تقویتی عمیق و PyTorch بسازید: DDPG، TD3، SAC، NAF، HER. بر برخی از پیشرفته ترین الگوریتم های یادگیری تقویتی مسلط شوید. یاد بگیرید چگونه هوش مصنوعی ایجاد کنید که بتواند در یک محیط پیچیده برای رسیدن به اهداف خود عمل کند. با استفاده از محبوب‌ترین ابزار پایتون (PyTorch Lightning، OpenAI gym، Brax، Optuna) عوامل یادگیری تقویتی پیشرفته را از ابتدا ایجاد کنید. اشکال زدایی و گسترش الگوریتم های ارائه شده. درک و پیاده سازی الگوریتم های جدید از مقالات تحقیقاتی. پیش نیازها: برنامه نویسی در پایتون راحت باشید. دوره آموزشی ما "آموزش تقویتی مبتدی تا مسلط" یا آشنایی با اصول یادگیری تقویتی (یا تماشای بخش های سطح بندی موجود در این دوره) دانستن آمار پایه (میانگین، واریانس، توزیع نرمال)

این کاملترین دوره آموزش تقویتی پیشرفته در Udemy است. در آن، پیاده سازی برخی از قدرتمندترین الگوریتم های یادگیری تقویتی عمیق در پایتون را با استفاده از PyTorch و PyTorch Lightning خواهید آموخت. شما از ابتدا الگوریتم های تطبیقی را پیاده سازی خواهید کرد که وظایف کنترلی را بر اساس تجربه حل می کنند. شما یاد خواهید گرفت که این تکنیک ها را با شبکه های عصبی و روش های یادگیری عمیق ترکیب کنید تا عوامل هوش مصنوعی تطبیقی ایجاد کنید که قادر به حل وظایف تصمیم گیری هستند.

این دوره شما را با آخرین هنر در تکنیک های یادگیری تقویتی آشنا می کند. همچنین شما را برای دوره‌های بعدی این مجموعه آماده می‌کند، جایی که ما روش‌های پیشرفته دیگری را که در انواع دیگر وظایف برتر هستند، بررسی خواهیم کرد.

این دوره بر توسعه مهارت های عملی متمرکز است. بنابراین، پس از یادگیری مهم‌ترین مفاهیم هر خانواده از روش‌ها، یک یا چند الگوریتم آن‌ها را از ابتدا در نوت‌بوک‌های jupyter پیاده‌سازی می‌کنیم.

تراز کردن ماژول ها:

- تجدید کننده: فرآیند تصمیم گیری مارکوف (MDP).

- Refresher: Q-Learning.

- Refresher: معرفی مختصر شبکه های عصبی.

- Refresher: Deep Q-Learning.

- Refresher: روش های گرادیان خط مشی

یادگیری تقویتی پیشرفته:

- PyTorch Lightning.

- تنظیم فراپارامتر با Optuna.

- یادگیری عمیق Q برای فضاهای کنش مستمر (عملکرد مزیت عادی - NAF).

- گرادیان خط مشی قطعی عمیق (DDPG).

- DDPG تاخیری دوقلو (TD3).

- بازیگر ملایم منتقد (SAC).

- بازپخش تجربه Hindsight (HER).

سرفصل ها و درس ها

معرفی Introduction

معرفی Introduction
سری آموزشی تقویتی Reinforcement Learning series
گوگل کولب Google Colab
از کجا شروع کنیم Where to begin
کد کامل Complete code
در شبکه های اجتماعی با من ارتباط برقرار کنید Connect with me on social media

تازه‌سازی: فرآیند تصمیم‌گیری مارکوف (MDP) Refresher: The Markov Decision Process (MDP)

نمای کلی ماژول Module Overview
عناصر مشترک برای همه وظایف کنترلی Elements common to all control tasks
فرآیند تصمیم گیری مارکوف (MDP) The Markov decision process (MDP)
انواع فرآیند تصمیم گیری مارکوف Types of Markov decision process
مسیر در مقابل قسمت Trajectory vs episode
پاداش در مقابل بازگشت Reward vs Return
عامل تخفیف Discount factor
خط مشی Policy
مقادیر v(s) و مقادیر عمل q(s,a) را بیان کنید State values v(s) and action values q(s,a)
معادلات بلمن Bellman equations
حل فرآیند تصمیم گیری مارکوف Solving a Markov decision process

Refresher: Q-Learning Refresher: Q-Learning

نمای کلی ماژول Module overview
روش های تفاوت زمانی Temporal difference methods
حل وظایف کنترلی با روش های اختلاف زمانی Solving control tasks with temporal difference methods
Q-Learning Q-Learning
مزایای روش های تفاوت زمانی Advantages of temporal difference methods

Refresher: معرفی مختصر شبکه های عصبی Refresher: Brief introduction to Neural Networks

نمای کلی ماژول Module overview
تقریبگرهای توابع Function approximators
شبکه های عصبی مصنوعی Artificial Neural Networks
نورون های مصنوعی Artificial Neurons
نحوه نمایش یک شبکه عصبی How to represent a Neural Network
نزول گرادیان تصادفی Stochastic Gradient Descent
بهینه سازی شبکه عصبی Neural Network optimization

Refresher: Deep Q-Learning Refresher: Deep Q-Learning

نمای کلی ماژول Module overview
Deep Q-Learning Deep Q-Learning
تکرار را تجربه کنید Experience Replay
شبکه هدف Target Network

PyTorch Lightning PyTorch Lightning

PyTorch Lightning PyTorch Lightning
پیوند به دفترچه کد Link to the code notebook
مقدمه ای بر PyTorch Lightning Introduction to PyTorch Lightning
Deep Q-Network را ایجاد کنید Create the Deep Q-Network
خط مشی را ایجاد کنید Create the policy
بافر پخش مجدد را ایجاد کنید Create the replay buffer
محیط را ایجاد کنید Create the environment
کلاس را برای الگوریتم Deep Q-Learning تعریف کنید Define the class for the Deep Q-Learning algorithm
تابع play_episode() را تعریف کنید Define the play_episode() function
دیتا لودر و بهینه ساز را آماده کنید Prepare the data loader and the optimizer
متد ()train_step را تعریف کنید Define the train_step() method
متد ()train_epoch_end را تعریف کنید Define the train_epoch_end() method
[مهم] تصحیح سخنرانی. [Important] Lecture correction.
الگوریتم Deep Q-Learning را آموزش دهید Train the Deep Q-Learning algorithm
عامل حاصل را کاوش کنید Explore the resulting agent

تنظیم فراپارامتر با Optuna Hyperparameter tuning with Optuna

تنظیم فراپارامتر با Optuna Hyperparameter tuning with Optuna
پیوند به دفترچه کد Link to the code notebook
بازده متوسط را ثبت کنید Log average return
تابع هدف را تعریف کنید Define the objective function
کار تنظیم hyperparameter را ایجاد و راه اندازی کنید Create and launch the hyperparameter tuning job
بهترین آزمایش را کاوش کنید Explore the best trial

Deep Q-Learning برای فضاهای کنش مداوم (عملکرد مزیت عادی) Deep Q-Learning for continuous action spaces (Normalized Advantage Function)

فضاهای کنش مستمر Continuous action spaces
تابع مزیت The advantage function
عملکرد مزیت عادی (NAF) Normalized Advantage Function (NAF)
کد شبه تابع مزیت عادی شده Normalized Advantage Function pseudocode
پیوند به دفترچه کد Link to the code notebook
مماس هایپربولیک Hyperbolic tangent
ایجاد (NAF) Deep Q-Network 1 Creating the (NAF) Deep Q-Network 1
ایجاد شبکه (NAF) Deep Q-Network 2 Creating the (NAF) Deep Q-Network 2
ایجاد شبکه (NAF) Deep Q-Network 3 Creating the (NAF) Deep Q-Network 3
ایجاد شبکه (NAF) Deep Q-Network 4 Creating the (NAF) Deep Q-Network 4
ایجاد خط مشی Creating the policy
محیط را ایجاد کنید Create the environment
پولیاک میانگین گیری Polyak averaging
پیاده سازی پولیاک میانگین گیری Implementing Polyak averaging
الگوریتم Deep Q-Learning (NAF) را ایجاد کنید Create the (NAF) Deep Q-Learning algorithm
مرحله آموزش را اجرا کنید Implement the training step
منطق پایان دوران را اجرا کنید Implement the end-of-epoch logic
اشکال زدایی و راه اندازی الگوریتم Debugging and launching the algorithm
بررسی عامل به دست آمده Checking the resulting agent

Refresher: روش های گرادیان خط مشی Refresher: Policy gradient methods

روش های گرادیان خط مشی Policy gradient methods
عملکرد سیاست Policy performance
نمایش سیاست ها با استفاده از شبکه های عصبی Representing policies using neural networks
قضیه گرادیان خط مشی The policy gradient theorem
تنظیم آنتروپی Entropy Regularization

گرادیان خط مشی قطعی عمیق (DDPG) Deep Deterministic Policy Gradient (DDPG)

موتور Brax Physics The Brax Physics engine
گرادیان خط مشی قطعی عمیق (DDPG) Deep Deterministic Policy Gradient (DDPG)
شبه کد DDPG DDPG pseudocode
پیوند به دفترچه کد Link to the code notebook
مهم - کد به روز شده Important - updated code
گرادیان خط مشی قطعی عمیق (DDPG) Deep Deterministic Policy Gradient (DDPG)
خط مشی گرادیان را ایجاد کنید Create the gradient policy
ایجاد خط مشی گرادیان - تصحیح Create the gradient policy - Correction
Deep Q-Network را ایجاد کنید Create the Deep Q-Network
کلاس DDPG را ایجاد کنید Create the DDPG class
روش بازی را تعریف کنید Define the play method
روش بازی را تعریف کنید - تصحیح Define the play method - Correction
بهینه ساز و دیتالودر را راه اندازی کنید Setup the optimizers and dataloader
مرحله آموزش را تعریف کنید Define the training step
مرحله آموزش - تصحیح را تعریف کنید Define the training step - Correction
فرآیند آموزش را راه اندازی کنید Launch the training process
عامل حاصل را بررسی کنید Check the resulting agent

DDPG تاخیری دوقلو (TD3) Twin Delayed DDPG (TD3)

DDPG تاخیری دوقلو (TD3) Twin Delayed DDPG (TD3)
شبه کد TD3 TD3 pseudocode
پیوند به دفترچه کد Link to code notebook
مهم - کد به روز شد Important - Code updated
DDPG تاخیری دوقلو (TD3) Twin Delayed DDPG (TD3)
به روز رسانی سیاست های تاخیری Delayed policy updates
بریده دو Q-Learning Clipped double Q-Learning
هموارسازی سیاست های هدف Target policy smoothing
عامل حاصل را بررسی کنید Check the resulting agent

منتقد-بازیگر نرم (SAC) Soft Actor-Critic (SAC)

منتقد-بازیگر نرم (SAC) Soft Actor-Critic (SAC)
شبه کد SAC SAC pseudocode
پیوند به دفترچه کد Link to code notebook
کار رباتیک را ایجاد کنید Create the robotics task
Deep Q-Network را ایجاد کنید Create the Deep Q-Network
خط مشی گرادیان را ایجاد کنید Create the gradient policy
پیاده سازی الگوریتم Soft Actor-Critic - قسمت 1 Implement the Soft Actor-Critic algorithm - Part 1
پیاده سازی الگوریتم Soft Actor-Critic - قسمت 2 Implement the Soft Actor-Critic algorithm - Part 2
نتایج را بررسی کنید Check the results

بازپخش تجربه Hindsight Hindsight Experience Replay

بازپخش تجربه Hindsight (HER) Hindsight Experience Replay (HER)
پیوند به دفترچه کد Link to code notebook
اجرای مجدد تجربه Hindsight (HER) - قسمت 1 Implement Hindsight Experience Replay (HER) - Part 1
اجرای مجدد تجربه Hindsight (HER) - قسمت 2 Implement Hindsight Experience Replay (HER) - Part 2
اجرای مجدد تجربه Hindsight (HER) - قسمت 3 Implement Hindsight Experience Replay (HER) - Part 3
نتایج را بررسی کنید Check the results

مراحل پایانی Final steps

مراحل بعدی Next steps
مراحل بعدی Next steps

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش یادگیری تقویتی پیشرفته در پایتون: از DQN تا SAC

جزییات دوره

زمان دوره: 8 hours

تعداد ویدیو ها: 121

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 1,883

امتیاز مرجع: 4.5 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Escape Velocity Labs

لینک کوتاه این دوره

https://donyad.com/d/fec13c

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

دنیاد

آموزش یادگیری تقویتی پیشرفته در پایتون: از DQN تا SAC

Advanced Reinforcement Learning in Python: from DQN to SAC

معرفی Introduction

معرفی Introduction

سری آموزشی تقویتی Reinforcement Learning series

گوگل کولب Google Colab

از کجا شروع کنیم Where to begin

کد کامل Complete code

در شبکه های اجتماعی با من ارتباط برقرار کنید Connect with me on social media

تازه‌سازی: فرآیند تصمیم‌گیری مارکوف (MDP) Refresher: The Markov Decision Process (MDP)

نمای کلی ماژول Module Overview

عناصر مشترک برای همه وظایف کنترلی Elements common to all control tasks

فرآیند تصمیم گیری مارکوف (MDP) The Markov decision process (MDP)

انواع فرآیند تصمیم گیری مارکوف Types of Markov decision process

مسیر در مقابل قسمت Trajectory vs episode

پاداش در مقابل بازگشت Reward vs Return

عامل تخفیف Discount factor

خط مشی Policy

مقادیر v(s) و مقادیر عمل q(s,a) را بیان کنید State values v(s) and action values q(s,a)

معادلات بلمن Bellman equations

حل فرآیند تصمیم گیری مارکوف Solving a Markov decision process

Refresher: Q-Learning Refresher: Q-Learning

نمای کلی ماژول Module overview

روش های تفاوت زمانی Temporal difference methods

حل وظایف کنترلی با روش های اختلاف زمانی Solving control tasks with temporal difference methods

Q-Learning Q-Learning

مزایای روش های تفاوت زمانی Advantages of temporal difference methods

Refresher: معرفی مختصر شبکه های عصبی Refresher: Brief introduction to Neural Networks

نمای کلی ماژول Module overview

تقریبگرهای توابع Function approximators

شبکه های عصبی مصنوعی Artificial Neural Networks

نورون های مصنوعی Artificial Neurons

نحوه نمایش یک شبکه عصبی How to represent a Neural Network

نزول گرادیان تصادفی Stochastic Gradient Descent

بهینه سازی شبکه عصبی Neural Network optimization

Refresher: Deep Q-Learning Refresher: Deep Q-Learning

نمای کلی ماژول Module overview

Deep Q-Learning Deep Q-Learning

تکرار را تجربه کنید Experience Replay

شبکه هدف Target Network

PyTorch Lightning PyTorch Lightning

PyTorch Lightning PyTorch Lightning

پیوند به دفترچه کد Link to the code notebook

مقدمه ای بر PyTorch Lightning Introduction to PyTorch Lightning

Deep Q-Network را ایجاد کنید Create the Deep Q-Network

خط مشی را ایجاد کنید Create the policy

بافر پخش مجدد را ایجاد کنید Create the replay buffer

محیط را ایجاد کنید Create the environment

کلاس را برای الگوریتم Deep Q-Learning تعریف کنید Define the class for the Deep Q-Learning algorithm

تابع play_episode() را تعریف کنید Define the play_episode() function

دیتا لودر و بهینه ساز را آماده کنید Prepare the data loader and the optimizer

متد ()train_step را تعریف کنید Define the train_step() method

متد ()train_epoch_end را تعریف کنید Define the train_epoch_end() method

[مهم] تصحیح سخنرانی. [Important] Lecture correction.

الگوریتم Deep Q-Learning را آموزش دهید Train the Deep Q-Learning algorithm

عامل حاصل را کاوش کنید Explore the resulting agent

تنظیم فراپارامتر با Optuna Hyperparameter tuning with Optuna

تنظیم فراپارامتر با Optuna Hyperparameter tuning with Optuna

پیوند به دفترچه کد Link to the code notebook

بازده متوسط ​​را ثبت کنید Log average return

تابع هدف را تعریف کنید Define the objective function

کار تنظیم hyperparameter را ایجاد و راه اندازی کنید Create and launch the hyperparameter tuning job

بهترین آزمایش را کاوش کنید Explore the best trial

Deep Q-Learning برای فضاهای کنش مداوم (عملکرد مزیت عادی) Deep Q-Learning for continuous action spaces (Normalized Advantage Function)

فضاهای کنش مستمر Continuous action spaces

تابع مزیت The advantage function

عملکرد مزیت عادی (NAF) Normalized Advantage Function (NAF)

کد شبه تابع مزیت عادی شده Normalized Advantage Function pseudocode

پیوند به دفترچه کد Link to the code notebook

مماس هایپربولیک Hyperbolic tangent

ایجاد (NAF) Deep Q-Network 1 Creating the (NAF) Deep Q-Network 1

ایجاد شبکه (NAF) Deep Q-Network 2 Creating the (NAF) Deep Q-Network 2

ایجاد شبکه (NAF) Deep Q-Network 3 Creating the (NAF) Deep Q-Network 3

ایجاد شبکه (NAF) Deep Q-Network 4 Creating the (NAF) Deep Q-Network 4

ایجاد خط مشی Creating the policy

محیط را ایجاد کنید Create the environment

پولیاک میانگین گیری Polyak averaging

پیاده سازی پولیاک میانگین گیری Implementing Polyak averaging

الگوریتم Deep Q-Learning (NAF) را ایجاد کنید Create the (NAF) Deep Q-Learning algorithm

مرحله آموزش را اجرا کنید Implement the training step

بازده متوسط را ثبت کنید Log average return