دسترسی سریع:

مسیر:

صفحه اصلی

🔔 با توجه به بهبود نسبی اینترنت، آماده‌سازی دوره‌ها آغاز شده است. به دلیل تداوم برخی اختلالات، بارگذاری دوره‌ها ممکن است با کمی تأخیر انجام شود. مدت اشتراک‌های تهیه‌شده محفوظ است.

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش یادگیری تقویتی پیشرفته در پایتون: جدیدترین شبکه‌های DQN - آخرین آپدیت

دانلود Advanced Reinforcement Learning in Python: cutting-edge DQNs

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره:

ساخت ایجنت‌های هوش مصنوعی با یادگیری تقویتی عمیق و PyTorch: از DQN پایه تا Rainbow DQN

تسلط بر پیشرفته‌ترین الگوریتم‌های یادگیری تقویتی.

یاد بگیرید چگونه هوش‌های مصنوعی بسازید که بتوانند در محیط‌های پیچیده برای رسیدن به اهداف خود عمل کنند.

ایجنت‌های پیشرفته یادگیری تقویتی را از ابتدا با محبوب‌ترین ابزارهای پایتون (PyTorch Lightning، OpenAI gym، Optuna) بسازید.

نحوه انجام تنظیم هایپرپارامترها (انتخاب بهترین شرایط آزمایشی برای یادگیری هوش مصنوعی ما) را بیاموزید.

فرایند یادگیری هر الگوریتم را به طور بنیادی درک کنید.

اشکال‌زدایی و گسترش الگوریتم‌های ارائه شده.

الگوریتم‌های جدید را از مقالات تحقیقاتی درک و پیاده‌سازی کنید.

پیش‌نیازها:

راحتی در برنامه‌نویسی با پایتون
گذراندن دوره «یادگیری تقویتی از مبتدی تا پیشرفته» یا آشنایی با مبانی یادگیری تقویتی (یا مشاهده بخش‌های مقدماتی موجود در این دوره).
آشنایی با آمار پایه (میانگین، واریانس، توزیع نرمال)

این کامل‌ترین دوره یادگیری تقویتی پیشرفته در Udemy است. در این دوره، پیاده‌سازی برخی از قدرتمندترین الگوریتم‌های یادگیری تقویتی عمیق را در پایتون با استفاده از PyTorch و PyTorch lightning خواهید آموخت. الگوریتم‌های تطبیقی را از ابتدا پیاده‌سازی خواهید کرد که وظایف کنترلی را بر اساس تجربه حل می‌کنند. یاد خواهید گرفت که چگونه این تکنیک‌ها را با شبکه‌های عصبی و روش‌های یادگیری عمیق ترکیب کنید تا ایجنت‌های هوش مصنوعی تطبیقی بسازید که قادر به حل وظایف تصمیم‌گیری هستند.

این دوره شما را با آخرین دستاوردهای تکنیک‌های یادگیری تقویتی آشنا می‌کند. همچنین شما را برای دوره‌های بعدی در این مجموعه آماده می‌کند، جایی که روش‌های پیشرفته دیگری را که در انواع دیگر وظایف برتری دارند، بررسی خواهیم کرد.

این دوره بر توسعه مهارت‌های عملی تمرکز دارد. بنابراین، پس از یادگیری مهم‌ترین مفاهیم هر خانواده از روش‌ها، یک یا چند الگوریتم از آن‌ها را از ابتدا در نوت‌بوک‌های ژوپیتر پیاده‌سازی خواهیم کرد.

ماژول‌های مقدماتی:

مروری بر: فرآیند تصمیم‌گیری مارکوف (MDP)
مروری بر: یادگیری Q
مروری بر: مقدمه‌ای کوتاه بر شبکه‌های عصبی
مروری بر: یادگیری Q عمیق

یادگیری تقویتی پیشرفته:

PyTorch Lightning
تنظیم هایپرپارامتر با Optuna
یادگیری تقویتی با ورودی‌های تصویری
یادگیری Q عمیق مضاعف
شبکه‌های Q عمیق دوئل‌کننده
تجربه بازپخش اولویت‌دار (PER)
شبکه‌های Q عمیق توزیعی
شبکه‌های Q عمیق نویزی
یادگیری Q عمیق N-گام
یادگیری Q عمیق Rainbow

سرفصل ها و درس ها

مقدمه Introduction

مقدمه Introduction
مجموعه یادگیری تقویتی Reinforcement Learning series
گوگل کولب Google Colab
از کجا شروع کنیم Where to begin
کد کامل Complete code
مرا در شبکه های اجتماعی دنبال کنید Connect with me on social media

مرور سریع: فرایند تصمیم‌گیری مارکوف (MDP) Refresher: The Markov Decision Process (MDP)

مرور ماژول Module overview
عناصر مشترک در تمام وظایف کنترلی Elements common to all control tasks
فرایند تصمیم‌گیری مارکوف (MDP) The Markov decision process (MDP)
انواع فرایند تصمیم‌گیری مارکوف Types of Markov decision process
مسیر در مقابل قسمت Trajectory vs episode
پاداش در مقابل بازده Reward vs Return
ضریب تخفیف Discount factor
خط مشی Policy
مقادیر حالت v(s) و مقادیر عمل q(s,a) State values v(s) and action values q(s,a)
معادلات بلمن Bellman equations
حل فرایند تصمیم‌گیری مارکوف Solving a Markov decision process

مرور سریع: یادگیری Q Refresher: Q-Learning

مرور ماژول Module overview
روش‌های تفاضل زمانی Temporal difference methods
حل وظایف کنترلی با روش تفاضل زمانی Solving control tasks with temporal difference method
یادگیری Q Q-Learning
مزایای روش‌های تفاضل زمانی Advantages of temporal difference methods

مرور سریع: مقدمه ای مختصر بر شبکه های عصبی Refresher: Brief introduction to Neural Networks

مرور ماژول Module overview
تقریب‌گرهای تابع Function approximators
شبکه‌های عصبی مصنوعی Artificial Neural Networks
نورون‌های مصنوعی Artificial Neurons
چگونه یک شبکه عصبی را نمایش دهیم How to represent a Neural Network
کاهش گرادیان تصادفی Stochastic Gradient Descent
بهینه‌سازی شبکه عصبی Neural Network optimization

مرور سریع: یادگیری Q عمیق Refresher: Deep Q-Learning

مرور ماژول Module overview
یادگیری Q عمیق Deep Q-Learning
بازپخش تجربه Experience replay
شبکه هدف Target Network

PyTorch Lightning PyTorch Lightning

PyTorch Lightning PyTorch Lightning
لینک به نوت بوک کد Link to the code notebook
مقدمه PyTorch Lightning Introduction to PyTorch Lightning
ایجاد شبکه Q عمیق Create the Deep Q-Network
ایجاد خط مشی Create the policy
ایجاد بافر بازپخش Create the replay buffer
ایجاد محیط Create the environment
تعریف کلاس برای الگوریتم یادگیری Q عمیق Define the class for the Deep Q-Learning algorithm
تعریف تابع play_episode() Define the play_episode() function
آماده سازی بارگذار داده و بهینه ساز Prepare the data loader and the optimizer
تعریف متد train_step() Define the train_step() method
تعریف متد train_epoch_end() Define the train_epoch_end() method
[مهم] اصلاح سخنرانی [Important] Lecture correction
آموزش الگوریتم یادگیری Q عمیق Train the Deep Q-Learning algorithm
کاوش عامل نتیجه شده Explore the resulting agent

تنظیم هایپرپارامتر با Optuna Hyperparameter tuning with Optuna

تنظیم هایپرپارامتر با Optuna Hyperparameter tuning with Optuna
لینک به نوت بوک کد Link to the code notebook
بازده متوسط ثبت شده Log average return
تعریف تابع هدف Define the objective function
ایجاد و اجرای وظیفه تنظیم هایپرپارامتر Create and launch the hyperparameter tuning job
بررسی بهترین آزمایش Explore the best trial

یادگیری Q عمیق دوگانه Double Deep Q-Learning

بایاس حداکثر سازی و یادگیری Q عمیق دوگانه Maximization bias and Double Deep Q-Learning
لینک به نوت بوک کد Link to the code notebook
ایجاد الگوریتم یادگیری Q عمیق دوگانه Create the Double Deep Q-Learning algorithm
بررسی عامل نتیجه شده Check the resulting agent

شبکه‌های Q عمیق دوئلینگ Dueling Deep Q-Networks

شبکه‌های Q عمیق دوئلینگ Dueling Deep Q-Networks
لینک به نوت بوک کد Link to the code notebook
ایجاد DQN دوئلینگ Create the dueling DQN
نرمال سازی مشاهدات و پاداش Observation and reward normalization
ایجاد محیط - قسمت 1 Create the environment - Part 1
ایجاد محیط - قسمت 2 Create the environment - Part 2
پیاده سازی یادگیری Q عمیق Implement Deep Q-Learning
بررسی عامل نتیجه شده Check the resulting agent

بازپخش تجربه با اولویت Prioritized Experience Replay

بازپخش تجربه با اولویت Prioritized Experience Replay
لینک به نوت بوک کد Link to the code notebook
DQN برای ورودی های بصری DQN for visual inputs
بافر بازپخش تجربه با اولویت Prioritized Experience Repay Buffer
ایجاد محیط Create the environment
پیاده سازی الگوریتم یادگیری Q عمیق با بازپخش تجربه با اولویت Implement the Deep Q-Learning algorithm with Prioritized Experience Replay
خطای سخنرانی Errata Lecture
اجرای فرایند آموزش Launch the training process
بررسی عامل نتیجه شده Check the resulting agent

شبکه‌های Q عمیق پر نویز Noisy Deep Q-Networks

شبکه‌های Q عمیق پر نویز Noisy Deep Q-Networks
لینک به نوت بوک کد Link to the code notebook
ایجاد کلاس لایه خطی پر نویز Create the noisy linear layer class
ایجاد شبکه Q عمیق Create the Deep Q-Network
ایجاد خط مشی Create the policy
ایجاد محیط Create the environment
آموزش الگوریتم Train the algorithm
بررسی نتایج Check the results

یادگیری Q عمیق N-گامی N-step Deep Q-Learning

یادگیری Q عمیق N-گامی N-step Deep Q-Learning
لینک به نوت بوک کد Link to the code notebook
یادگیری Q عمیق N-گامی - قسمت 1 N-step Deep Q-Learning - Part 1
یادگیری Q عمیق N-گامی - قسمت 2 N-step Deep Q-Learning - Part 2
یادگیری Q عمیق N-گامی - قسمت 3 N-step Deep Q-Learning - Part 3
بررسی نتایج Check results

شبکه‌های Q عمیق توزیعی Distributional Deep Q-Networks

شبکه‌های Q عمیق توزیعی Distributional Deep Q-Networks
لینک به نوت بوک کد Link to the code notebook
ایجاد DQN توزیعی - قسمت 1 Create the distributional DQN - Part 1
ایجاد DQN توزیعی - قسمت 2 Create the distributional DQN - Part 2
ایجاد خط مشی Create the policy
ایجاد محیط Create the environment
سازگاری الگوریتم: سازنده و تابع نمونه گیری Adapt the algorithm: Constructor and sample function
سازگاری الگوریتم: مرحله آموزش - قسمت 1 Adapt the algorithm: Training step - Part 1
سازگاری الگوریتم: مرحله آموزش - قسمت 2 Adapt the algorithm: Training step - Part 2
سازگاری الگوریتم: مرحله آموزش - قسمت 3 Adapt the algorithm: Training step - Part 3
سازگاری الگوریتم: مرحله آموزش - قسمت 4 Adapt the algorithm: Training step - Part 4
اجرای فرایند آموزش Launch the training process

مراحل نهایی Final steps

گام های بعدی Next steps
گام های بعدی Next steps
مرا در شبکه های اجتماعی دنبال کنید Connect with me on social media

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش یادگیری تقویتی پیشرفته در پایتون: جدیدترین شبکه‌های DQN

جزییات دوره

زمان دوره: 8.5 hours

تعداد ویدیو ها: 104

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 1,719

امتیاز مرجع: 4.6 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Escape Velocity Labs

لینک کوتاه این دوره

https://donyad.com/d/1ec73c

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

آموزش یادگیری تقویتی پیشرفته در پایتون: جدیدترین شبکه‌های DQN - آخرین آپدیت

دانلود Advanced Reinforcement Learning in Python: cutting-edge DQNs

ساخت ایجنت‌های هوش مصنوعی با یادگیری تقویتی عمیق و PyTorch: از DQN پایه تا Rainbow DQN

پیش‌نیازها:

ماژول‌های مقدماتی:

یادگیری تقویتی پیشرفته:

مقدمه Introduction

مقدمه Introduction

مجموعه یادگیری تقویتی Reinforcement Learning series

گوگل کولب Google Colab

از کجا شروع کنیم Where to begin

کد کامل Complete code

مرا در شبکه های اجتماعی دنبال کنید Connect with me on social media

مرور سریع: فرایند تصمیم‌گیری مارکوف (MDP) Refresher: The Markov Decision Process (MDP)

مرور ماژول Module overview

عناصر مشترک در تمام وظایف کنترلی Elements common to all control tasks

فرایند تصمیم‌گیری مارکوف (MDP) The Markov decision process (MDP)

انواع فرایند تصمیم‌گیری مارکوف Types of Markov decision process

مسیر در مقابل قسمت Trajectory vs episode

پاداش در مقابل بازده Reward vs Return

ضریب تخفیف Discount factor

خط مشی Policy

مقادیر حالت v(s) و مقادیر عمل q(s,a) State values v(s) and action values q(s,a)

معادلات بلمن Bellman equations

حل فرایند تصمیم‌گیری مارکوف Solving a Markov decision process

مرور سریع: یادگیری Q Refresher: Q-Learning

مرور ماژول Module overview

روش‌های تفاضل زمانی Temporal difference methods

حل وظایف کنترلی با روش تفاضل زمانی Solving control tasks with temporal difference method

یادگیری Q Q-Learning

مزایای روش‌های تفاضل زمانی Advantages of temporal difference methods

مرور سریع: مقدمه ای مختصر بر شبکه های عصبی Refresher: Brief introduction to Neural Networks

مرور ماژول Module overview

تقریب‌گرهای تابع Function approximators

شبکه‌های عصبی مصنوعی Artificial Neural Networks

نورون‌های مصنوعی Artificial Neurons

چگونه یک شبکه عصبی را نمایش دهیم How to represent a Neural Network

کاهش گرادیان تصادفی Stochastic Gradient Descent

بهینه‌سازی شبکه عصبی Neural Network optimization

مرور سریع: یادگیری Q عمیق Refresher: Deep Q-Learning

مرور ماژول Module overview

یادگیری Q عمیق Deep Q-Learning

بازپخش تجربه Experience replay

شبکه هدف Target Network

PyTorch Lightning PyTorch Lightning

PyTorch Lightning PyTorch Lightning

لینک به نوت بوک کد Link to the code notebook

مقدمه PyTorch Lightning Introduction to PyTorch Lightning

ایجاد شبکه Q عمیق Create the Deep Q-Network

ایجاد خط مشی Create the policy

ایجاد بافر بازپخش Create the replay buffer

ایجاد محیط Create the environment

تعریف کلاس برای الگوریتم یادگیری Q عمیق Define the class for the Deep Q-Learning algorithm

تعریف تابع play_episode() Define the play_episode() function

آماده سازی بارگذار داده و بهینه ساز Prepare the data loader and the optimizer

تعریف متد train_step() Define the train_step() method

تعریف متد train_epoch_end() Define the train_epoch_end() method

[مهم] اصلاح سخنرانی [Important] Lecture correction

آموزش الگوریتم یادگیری Q عمیق Train the Deep Q-Learning algorithm

کاوش عامل نتیجه شده Explore the resulting agent

تنظیم هایپرپارامتر با Optuna Hyperparameter tuning with Optuna

تنظیم هایپرپارامتر با Optuna Hyperparameter tuning with Optuna

لینک به نوت بوک کد Link to the code notebook

بازده متوسط ثبت شده Log average return

تعریف تابع هدف Define the objective function

ایجاد و اجرای وظیفه تنظیم هایپرپارامتر Create and launch the hyperparameter tuning job

بررسی بهترین آزمایش Explore the best trial

یادگیری Q عمیق دوگانه Double Deep Q-Learning

بایاس حداکثر سازی و یادگیری Q عمیق دوگانه Maximization bias and Double Deep Q-Learning

لینک به نوت بوک کد Link to the code notebook

ایجاد الگوریتم یادگیری Q عمیق دوگانه Create the Double Deep Q-Learning algorithm

بررسی عامل نتیجه شده Check the resulting agent

شبکه‌های Q عمیق دوئلینگ Dueling Deep Q-Networks

شبکه‌های Q عمیق دوئلینگ Dueling Deep Q-Networks

لینک به نوت بوک کد Link to the code notebook

ایجاد DQN دوئلینگ Create the dueling DQN

نرمال سازی مشاهدات و پاداش Observation and reward normalization

ایجاد محیط - قسمت 1 Create the environment - Part 1

ایجاد محیط - قسمت 2 Create the environment - Part 2

پیاده سازی یادگیری Q عمیق Implement Deep Q-Learning