آموزش یادگیری تقویتی پیشرفته در پایتون: جدیدترین شبکه‌های DQN - آخرین آپدیت

دانلود Advanced Reinforcement Learning in Python: cutting-edge DQNs

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

ساخت ایجنت‌های هوش مصنوعی با یادگیری تقویتی عمیق و PyTorch: از DQN پایه تا Rainbow DQN

تسلط بر پیشرفته‌ترین الگوریتم‌های یادگیری تقویتی.

یاد بگیرید چگونه هوش‌های مصنوعی بسازید که بتوانند در محیط‌های پیچیده برای رسیدن به اهداف خود عمل کنند.

ایجنت‌های پیشرفته یادگیری تقویتی را از ابتدا با محبوب‌ترین ابزارهای پایتون (PyTorch Lightning، OpenAI gym، Optuna) بسازید.

نحوه انجام تنظیم هایپرپارامترها (انتخاب بهترین شرایط آزمایشی برای یادگیری هوش مصنوعی ما) را بیاموزید.

فرایند یادگیری هر الگوریتم را به طور بنیادی درک کنید.

اشکال‌زدایی و گسترش الگوریتم‌های ارائه شده.

الگوریتم‌های جدید را از مقالات تحقیقاتی درک و پیاده‌سازی کنید.

پیش‌نیازها:

  • راحتی در برنامه‌نویسی با پایتون
  • گذراندن دوره «یادگیری تقویتی از مبتدی تا پیشرفته» یا آشنایی با مبانی یادگیری تقویتی (یا مشاهده بخش‌های مقدماتی موجود در این دوره).
  • آشنایی با آمار پایه (میانگین، واریانس، توزیع نرمال)

این کامل‌ترین دوره یادگیری تقویتی پیشرفته در Udemy است. در این دوره، پیاده‌سازی برخی از قدرتمندترین الگوریتم‌های یادگیری تقویتی عمیق را در پایتون با استفاده از PyTorch و PyTorch lightning خواهید آموخت. الگوریتم‌های تطبیقی را از ابتدا پیاده‌سازی خواهید کرد که وظایف کنترلی را بر اساس تجربه حل می‌کنند. یاد خواهید گرفت که چگونه این تکنیک‌ها را با شبکه‌های عصبی و روش‌های یادگیری عمیق ترکیب کنید تا ایجنت‌های هوش مصنوعی تطبیقی بسازید که قادر به حل وظایف تصمیم‌گیری هستند.

این دوره شما را با آخرین دستاوردهای تکنیک‌های یادگیری تقویتی آشنا می‌کند. همچنین شما را برای دوره‌های بعدی در این مجموعه آماده می‌کند، جایی که روش‌های پیشرفته دیگری را که در انواع دیگر وظایف برتری دارند، بررسی خواهیم کرد.

این دوره بر توسعه مهارت‌های عملی تمرکز دارد. بنابراین، پس از یادگیری مهم‌ترین مفاهیم هر خانواده از روش‌ها، یک یا چند الگوریتم از آن‌ها را از ابتدا در نوت‌بوک‌های ژوپیتر پیاده‌سازی خواهیم کرد.

ماژول‌های مقدماتی:

  • مروری بر: فرآیند تصمیم‌گیری مارکوف (MDP)
  • مروری بر: یادگیری Q
  • مروری بر: مقدمه‌ای کوتاه بر شبکه‌های عصبی
  • مروری بر: یادگیری Q عمیق

یادگیری تقویتی پیشرفته:

  • PyTorch Lightning
  • تنظیم هایپرپارامتر با Optuna
  • یادگیری تقویتی با ورودی‌های تصویری
  • یادگیری Q عمیق مضاعف
  • شبکه‌های Q عمیق دوئل‌کننده
  • تجربه بازپخش اولویت‌دار (PER)
  • شبکه‌های Q عمیق توزیعی
  • شبکه‌های Q عمیق نویزی
  • یادگیری Q عمیق N-گام
  • یادگیری Q عمیق Rainbow

سرفصل ها و درس ها

مقدمه Introduction

  • مقدمه Introduction

  • مجموعه یادگیری تقویتی Reinforcement Learning series

  • گوگل کولب Google Colab

  • از کجا شروع کنیم Where to begin

  • کد کامل Complete code

  • مرا در شبکه های اجتماعی دنبال کنید Connect with me on social media

مرور سریع: فرایند تصمیم‌گیری مارکوف (MDP) Refresher: The Markov Decision Process (MDP)

  • مرور ماژول Module overview

  • عناصر مشترک در تمام وظایف کنترلی Elements common to all control tasks

  • فرایند تصمیم‌گیری مارکوف (MDP) The Markov decision process (MDP)

  • انواع فرایند تصمیم‌گیری مارکوف Types of Markov decision process

  • مسیر در مقابل قسمت Trajectory vs episode

  • پاداش در مقابل بازده Reward vs Return

  • ضریب تخفیف Discount factor

  • خط مشی Policy

  • مقادیر حالت v(s) و مقادیر عمل q(s,a) State values v(s) and action values q(s,a)

  • معادلات بلمن Bellman equations

  • حل فرایند تصمیم‌گیری مارکوف Solving a Markov decision process

مرور سریع: یادگیری Q Refresher: Q-Learning

  • مرور ماژول Module overview

  • روش‌های تفاضل زمانی Temporal difference methods

  • حل وظایف کنترلی با روش تفاضل زمانی Solving control tasks with temporal difference method

  • یادگیری Q Q-Learning

  • مزایای روش‌های تفاضل زمانی Advantages of temporal difference methods

مرور سریع: مقدمه ای مختصر بر شبکه های عصبی Refresher: Brief introduction to Neural Networks

  • مرور ماژول Module overview

  • تقریب‌گرهای تابع Function approximators

  • شبکه‌های عصبی مصنوعی Artificial Neural Networks

  • نورون‌های مصنوعی Artificial Neurons

  • چگونه یک شبکه عصبی را نمایش دهیم How to represent a Neural Network

  • کاهش گرادیان تصادفی Stochastic Gradient Descent

  • بهینه‌سازی شبکه عصبی Neural Network optimization

مرور سریع: یادگیری Q عمیق Refresher: Deep Q-Learning

  • مرور ماژول Module overview

  • یادگیری Q عمیق Deep Q-Learning

  • بازپخش تجربه Experience replay

  • شبکه هدف Target Network

PyTorch Lightning PyTorch Lightning

  • PyTorch Lightning PyTorch Lightning

  • لینک به نوت بوک کد Link to the code notebook

  • مقدمه PyTorch Lightning Introduction to PyTorch Lightning

  • ایجاد شبکه Q عمیق Create the Deep Q-Network

  • ایجاد خط مشی Create the policy

  • ایجاد بافر بازپخش Create the replay buffer

  • ایجاد محیط Create the environment

  • تعریف کلاس برای الگوریتم یادگیری Q عمیق Define the class for the Deep Q-Learning algorithm

  • تعریف تابع play_episode() Define the play_episode() function

  • آماده سازی بارگذار داده و بهینه ساز Prepare the data loader and the optimizer

  • تعریف متد train_step() Define the train_step() method

  • تعریف متد train_epoch_end() Define the train_epoch_end() method

  • [مهم] اصلاح سخنرانی [Important] Lecture correction

  • آموزش الگوریتم یادگیری Q عمیق Train the Deep Q-Learning algorithm

  • کاوش عامل نتیجه شده Explore the resulting agent

تنظیم هایپرپارامتر با Optuna Hyperparameter tuning with Optuna

  • تنظیم هایپرپارامتر با Optuna Hyperparameter tuning with Optuna

  • لینک به نوت بوک کد Link to the code notebook

  • بازده متوسط ثبت شده Log average return

  • تعریف تابع هدف Define the objective function

  • ایجاد و اجرای وظیفه تنظیم هایپرپارامتر Create and launch the hyperparameter tuning job

  • بررسی بهترین آزمایش Explore the best trial

یادگیری Q عمیق دوگانه Double Deep Q-Learning

  • بایاس حداکثر سازی و یادگیری Q عمیق دوگانه Maximization bias and Double Deep Q-Learning

  • لینک به نوت بوک کد Link to the code notebook

  • ایجاد الگوریتم یادگیری Q عمیق دوگانه Create the Double Deep Q-Learning algorithm

  • بررسی عامل نتیجه شده Check the resulting agent

شبکه‌های Q عمیق دوئلینگ Dueling Deep Q-Networks

  • شبکه‌های Q عمیق دوئلینگ Dueling Deep Q-Networks

  • لینک به نوت بوک کد Link to the code notebook

  • ایجاد DQN دوئلینگ Create the dueling DQN

  • نرمال سازی مشاهدات و پاداش Observation and reward normalization

  • ایجاد محیط - قسمت 1 Create the environment - Part 1

  • ایجاد محیط - قسمت 2 Create the environment - Part 2

  • پیاده سازی یادگیری Q عمیق Implement Deep Q-Learning

  • بررسی عامل نتیجه شده Check the resulting agent

بازپخش تجربه با اولویت Prioritized Experience Replay

  • بازپخش تجربه با اولویت Prioritized Experience Replay

  • لینک به نوت بوک کد Link to the code notebook

  • DQN برای ورودی های بصری DQN for visual inputs

  • بافر بازپخش تجربه با اولویت Prioritized Experience Repay Buffer

  • ایجاد محیط Create the environment

  • پیاده سازی الگوریتم یادگیری Q عمیق با بازپخش تجربه با اولویت Implement the Deep Q-Learning algorithm with Prioritized Experience Replay

  • خطای سخنرانی Errata Lecture

  • اجرای فرایند آموزش Launch the training process

  • بررسی عامل نتیجه شده Check the resulting agent

شبکه‌های Q عمیق پر نویز Noisy Deep Q-Networks

  • شبکه‌های Q عمیق پر نویز Noisy Deep Q-Networks

  • لینک به نوت بوک کد Link to the code notebook

  • ایجاد کلاس لایه خطی پر نویز Create the noisy linear layer class

  • ایجاد شبکه Q عمیق Create the Deep Q-Network

  • ایجاد خط مشی Create the policy

  • ایجاد محیط Create the environment

  • آموزش الگوریتم Train the algorithm

  • بررسی نتایج Check the results

یادگیری Q عمیق N-گامی N-step Deep Q-Learning

  • یادگیری Q عمیق N-گامی N-step Deep Q-Learning

  • لینک به نوت بوک کد Link to the code notebook

  • یادگیری Q عمیق N-گامی - قسمت 1 N-step Deep Q-Learning - Part 1

  • یادگیری Q عمیق N-گامی - قسمت 2 N-step Deep Q-Learning - Part 2

  • یادگیری Q عمیق N-گامی - قسمت 3 N-step Deep Q-Learning - Part 3

  • بررسی نتایج Check results

شبکه‌های Q عمیق توزیعی Distributional Deep Q-Networks

  • شبکه‌های Q عمیق توزیعی Distributional Deep Q-Networks

  • لینک به نوت بوک کد Link to the code notebook

  • ایجاد DQN توزیعی - قسمت 1 Create the distributional DQN - Part 1

  • ایجاد DQN توزیعی - قسمت 2 Create the distributional DQN - Part 2

  • ایجاد خط مشی Create the policy

  • ایجاد محیط Create the environment

  • سازگاری الگوریتم: سازنده و تابع نمونه گیری Adapt the algorithm: Constructor and sample function

  • سازگاری الگوریتم: مرحله آموزش - قسمت 1 Adapt the algorithm: Training step - Part 1

  • سازگاری الگوریتم: مرحله آموزش - قسمت 2 Adapt the algorithm: Training step - Part 2

  • سازگاری الگوریتم: مرحله آموزش - قسمت 3 Adapt the algorithm: Training step - Part 3

  • سازگاری الگوریتم: مرحله آموزش - قسمت 4 Adapt the algorithm: Training step - Part 4

  • اجرای فرایند آموزش Launch the training process

مراحل نهایی Final steps

  • گام های بعدی Next steps

  • گام های بعدی Next steps

  • مرا در شبکه های اجتماعی دنبال کنید Connect with me on social media

نمایش نظرات

آموزش یادگیری تقویتی پیشرفته در پایتون: جدیدترین شبکه‌های DQN
جزییات دوره
8.5 hours
104
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,719
4.6 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Escape Velocity Labs Escape Velocity Labs

دوره های عملی و جامع هوش مصنوعی