دسترسی سریع:

مسیر:

صفحه اصلی

🔔 با توجه به بهبود نسبی اینترنت، آماده‌سازی دوره‌ها آغاز شده است. به دلیل تداوم برخی اختلالات، بارگذاری دوره‌ها ممکن است با کمی تأخیر انجام شود. مدت اشتراک‌های تهیه‌شده محفوظ است.

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش یادگیری تقویتی پیشرفته: روش‌های گرادیان سیاست - آخرین آپدیت

دانلود Advanced Reinforcement Learning: policy gradient methods

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره:

ساخت عوامل هوش مصنوعی با یادگیری تقویتی عمیق و PyTorch

با این دوره جامع، یادگیری تقویتی عمیق (Deep Reinforcement Learning) را با استفاده از کتابخانه‌های قدرتمند پایتون مانند PyTorch و PyTorch Lightning بیاموزید.

در این دوره چه می‌آموزید؟

ساخت عوامل هوش مصنوعی (AI Agents) با استفاده از الگوریتم‌های پیشرفته یادگیری تقویتی عمیق مانند REINFORCE، A2C، PPO و ...
تسلط بر پیشرفته‌ترین الگوریتم‌های یادگیری تقویتی.
ایجاد هوش مصنوعی‌هایی که قادر به عمل در محیط‌های پیچیده برای دستیابی به اهداف خود هستند.
پیاده‌سازی عوامل یادگیری تقویتی پیشرفته از ابتدا با استفاده از محبوب‌ترین ابزارهای پایتون (PyTorch Lightning، OpenAI Gym، Optuna).
تنظیم ابرپارامترها (Hyperparameter Tuning) برای بهینه‌سازی فرآیند یادگیری هوش مصنوعی.
درک عمیق فرآیند یادگیری هر الگوریتم.
توانایی اشکال‌زدایی و گسترش الگوریتم‌های موجود.
درک و پیاده‌سازی الگوریتم‌های جدید از مقالات پژوهشی.

پیش‌نیازهای دوره:

آشنایی کامل با برنامه‌نویسی پایتون.
گذراندن دوره "یادگیری تقویتی از مبتدی تا پیشرفته" یا آشنایی با مبانی یادگیری تقویتی (یا مشاهده بخش‌های مقدماتی ارائه شده در این دوره).
دانش آمار پایه (میانگین، واریانس، توزیع نرمال).

این دوره جامع‌ترین مجموعه آموزشی یادگیری تقویتی در یودمی است. در اینجا، یاد خواهید گرفت که چگونه برخی از قدرتمندترین الگوریتم‌های یادگیری تقویتی عمیق را با استفاده از PyTorch و PyTorch Lightning در پایتون پیاده‌سازی کنید. عوامل سازگارپذیری را از ابتدا پیاده‌سازی خواهید کرد که وظایف کنترلی را بر اساس تجربه حل می‌کنند. همچنین یاد می‌گیرید که این تکنیک‌ها را با شبکه‌های عصبی و روش‌های یادگیری عمیق ترکیب کنید تا عوامل هوش مصنوعی سازگارپذیری ایجاد کنید که قادر به حل وظایف تصمیم‌گیری باشند.

این دوره شما را با جدیدترین تکنیک‌های یادگیری تقویتی آشنا می‌کند. همچنین شما را برای دوره‌های بعدی این مجموعه آماده می‌سازد، جایی که ما روش‌های پیشرفته دیگری را که در انواع دیگر وظایف برتری دارند، بررسی خواهیم کرد.

تمرکز دوره بر توسعه مهارت‌های عملی است. بنابراین، پس از یادگیری مهم‌ترین مفاهیم هر خانواده از روش‌ها، یک یا چند الگوریتم از آن‌ها را در نوت‌بوک‌های ژوپیتر، از ابتدا پیاده‌سازی خواهیم کرد.

ماژول‌های بازآموزی:

بازآموزی: فرآیند تصمیم‌گیری مارکوف (MDP).
بازآموزی: روش‌های مونت کارلو (Monte Carlo Methods).
بازآموزی: روش‌های تفاوت زمانی (Temporal Difference Methods).
بازآموزی: N-step Bootstrapping.
بازآموزی: مقدمه‌ای کوتاه بر شبکه‌های عصبی.
بازآموزی: روش‌های گرادیان سیاست (Policy Gradient Methods).

یادگیری تقویتی پیشرفته:

REINFORCE
REINFORCE برای فضاهای عمل پیوسته
Actor-Critic مبتنی بر مزیت (A2C)
روش‌های ناحیه اعتماد (Trust Region Methods)
بهینه‌سازی سیاست پروزیمل (PPO)
تخمین مزیت تعمیم یافته (GAE)
بهینه‌سازی سیاست ناحیه اعتماد (TRPO)

سرفصل ها و درس ها

مقدمه Introduction

مقدمه Introduction
سری یادگیری تقویتی Reinforcement Learning series
گوگل کولب Google Colab
از کجا شروع کنیم Where to begin
کد کامل Complete code
در شبکه‌های اجتماعی با من در ارتباط باشید Connect with me on social media

مرور: فرآیند تصمیم‌گیری مارکوف (MDP) Refresher: The Markov Decision Process (MDP)

عناصر مشترک در تمام وظایف کنترلی Elements common to all control tasks
فرآیند تصمیم‌گیری مارکوف (MDP) The Markov decision process (MDP)
انواع فرآیند تصمیم‌گیری مارکوف Types of Markov decision process
مسیر در مقابل اپیزود Trajectory vs episode
پاداش در مقابل بازگشت Reward vs Return
فاکتور تخفیف Discount factor
خط‌مشی Policy
مقادیر حالت v(s) و مقادیر عمل q(s,a) State values v(s) and action values q(s,a)
معادلات بل‌من Bellman equations
حل فرآیند تصمیم‌گیری مارکوف Solving a Markov decision process

مرور: روش‌های مونت کارلو Refresher: Monte Carlo methods

روش‌های مونت کارلو Monte Carlo methods
حل وظایف کنترلی با روش‌های مونت کارلو Solving control tasks with Monte Carlo methods
کنترل مونت کارلو بر روی خط‌مشی On-policy Monte Carlo control

مرور: روش‌های تفاضل زمانی Refresher: Temporal difference methods

روش‌های تفاضل زمانی Temporal difference methods
حل وظایف کنترلی با روش‌های تفاضل زمانی Solving control tasks with temporal difference methods
روش‌های مونت کارلو در مقابل تفاضل زمانی Monte Carlo vs temporal difference methods
SARSA SARSA
Q-Learning Q-Learning
مزایای روش‌های تفاضل زمانی Advantages of temporal difference methods

مرور: پیش‌بینی N مرحله‌ای Refresher: N-step bootstrapping

روش‌های تفاضل زمانی N مرحله‌ای N-step temporal difference methods
جایگاه روش‌های n مرحله‌ای کجاست؟ Where do n-step methods fit?
تأثیر تغییر n Effect of changing n

مرور: مقدمه‌ای کوتاه بر شبکه‌های عصبی Refresher: Brief introduction to Neural Networks

تقریب‌گرهای تابع Function approximators
شبکه‌های عصبی مصنوعی Artificial Neural Networks
نورون‌های مصنوعی Artificial Neurons
چگونه یک شبکه عصبی را نمایش دهیم How to represent a Neural Network
گرادیان کاهشی تصادفی Stochastic Gradient Descent
بهینه‌سازی شبکه عصبی Neural Network optimization

مرور: REINFORCE Refresher: REINFORCE

روش‌های گرادیان خط‌مشی Policy gradient methods
نمایش خط‌مشی‌ها با استفاده از شبکه‌های عصبی Representing policies using neural networks
عملکرد خط‌مشی Policy performance
قضیه گرادیان خط‌مشی The policy gradient theorem
REINFORCE REINFORCE
یادگیری موازی Parallel learning
تنظیم آنتروپی Entropy regularization
REINFORCE 2 REINFORCE 2

PyTorch Lightning PyTorch Lightning

PyTorch Lightning PyTorch Lightning
لینک به دفترچه کد Link to the code notebook
ایجاد خط‌مشی Create the policy
ایجاد محیط Create the environment
ایجاد مجموعه داده Create the dataset
ایجاد الگوریتم REINFORCE - بخش ۱ Create the REINFORCE algorithm - Part 1
ایجاد الگوریتم REINFORCE - بخش ۲ Create the REINFORCE algorithm - Part 2
بررسی عامل نتیجه Check the resulting agent

REINFORCE برای وظایف کنترلی پیوسته REINFORCE for continuous control tasks

REINFORCE برای فضاهای عمل پیوسته REINFORCE for continuous action spaces
لینک به دفترچه کد Link to the code notebook
ایجاد خط‌مشی Create the policy
ایجاد محیط آونگ وارونه Create the inverted pendulum environment
ایجاد مجموعه داده Create the dataset
ایجاد الگوریتم - بخش ۱ Creating the algorithm - Part 1
ایجاد الگوریتم - بخش ۲ Creating the algorithm - Part 2
بررسی عامل نتیجه Check the resulting agent

بازیگر-منتقد مزیت (A2C) Advantage Actor Critic (A2C)

A2C A2C
لینک به دفترچه کد Link to the code notebook
ایجاد خط‌مشی و شبکه ارزش Create the policy and value network
ایجاد محیط Create the environment
ایجاد مجموعه داده Create the dataset
پیاده‌سازی A2C - بخش ۱ Implement A2C - Part 1
پیاده‌سازی A2C - بخش ۲ Implement A2C - Part 2
بررسی عامل نتیجه Check the resulting agent

روش‌های منطقه اعتماد Trust region methods

جستجوی خطی در مقابل روش‌های منطقه اعتماد Line search vs trust region methods
روش‌های جستجوی خطی Line search methods
روش‌های منطقه اعتماد ۱ Trust region methods 1
واگرایی کولبک-لایبلر Kullback-Leibler divergence
روش‌های منطقه اعتماد ۲ Trust region methods 2
روش‌های منطقه اعتماد ۳ Trust region methods 3

بهینه‌سازی خط‌مشی پروگزیمال (PPO) Proximal Policy Optimization (PPO)

بهینه‌سازی خط‌مشی پروگزیمال Proximal Policy Optimization
لینک به دفترچه کد Link to the code notebook
ایجاد محیط Create the environment
ایجاد مجموعه داده Create the dataset
ایجاد الگوریتم PPO - بخش ۱ Create the PPO algorithm - Part 1
ایجاد الگوریتم PPO - بخش ۲ Create the PPO algorithm - Part 2
بررسی عامل نتیجه Check the resulting agent

تخمین مزیت تعمیم‌یافته (GAE) Generalized Advantage Estimation (GAE)

تخمین مزیت تعمیم‌یافته Generalized Advantage Estimation
لینک به دفترچه کد Link to the code notebook
ایجاد محیط یوزپلنگ نیمه Create the Half Cheetah environment
ایجاد مجموعه داده Create the dataset
PPO با تخمین مزیت تعمیم‌یافته - بخش ۱ PPO with generalized advantage estimation - Part 1
PPO با تخمین مزیت تعمیم‌یافته - بخش ۲ PPO with generalized advantage estimation - Part 2
بررسی عامل نتیجه Checking the resulting agent

بهینه‌سازی خط‌مشی منطقه اعتماد (TRPO) Trust Region Policy Optimization (TRPO)

بهینه‌سازی خط‌مشی منطقه اعتماد ۱ Trust region policy optimization 1
بهینه‌سازی خط‌مشی منطقه اعتماد ۲ Trust region policy optimization 2
لینک به دفترچه کد Link to the code notebook
TRPO در کد - بخش ۱ TRPO in code - Part 1
TRPO در کد - بخش ۲ TRPO in code - Part 2
TRPO در کد - بخش ۳ TRPO in code - Part 3
TRPO در کد - بخش ۴ TRPO in code - Part 4
TRPO در کد - بخش ۵ TRPO in code - Part 5
TRPO در کد - بخش ۶ TRPO in code - Part 6

مراحل نهایی Final steps

مراحل نهایی Final steps
در شبکه‌های اجتماعی با من در ارتباط باشید Connect with me on social media

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش یادگیری تقویتی پیشرفته: روش‌های گرادیان سیاست

جزییات دوره

زمان دوره: 7.5 hours

تعداد ویدیو ها: 97

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 1,732

امتیاز مرجع: 4.5 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Escape Velocity Labs

لینک کوتاه این دوره

https://donyad.com/d/215859

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

آموزش یادگیری تقویتی پیشرفته: روش‌های گرادیان سیاست - آخرین آپدیت

دانلود Advanced Reinforcement Learning: policy gradient methods

ساخت عوامل هوش مصنوعی با یادگیری تقویتی عمیق و PyTorch

در این دوره چه می‌آموزید؟

پیش‌نیازهای دوره:

ماژول‌های بازآموزی:

یادگیری تقویتی پیشرفته:

مقدمه Introduction

مقدمه Introduction

سری یادگیری تقویتی Reinforcement Learning series

گوگل کولب Google Colab

از کجا شروع کنیم Where to begin

کد کامل Complete code

در شبکه‌های اجتماعی با من در ارتباط باشید Connect with me on social media

مرور: فرآیند تصمیم‌گیری مارکوف (MDP) Refresher: The Markov Decision Process (MDP)

عناصر مشترک در تمام وظایف کنترلی Elements common to all control tasks

فرآیند تصمیم‌گیری مارکوف (MDP) The Markov decision process (MDP)

انواع فرآیند تصمیم‌گیری مارکوف Types of Markov decision process

مسیر در مقابل اپیزود Trajectory vs episode

پاداش در مقابل بازگشت Reward vs Return

فاکتور تخفیف Discount factor

خط‌مشی Policy

مقادیر حالت v(s) و مقادیر عمل q(s,a) State values v(s) and action values q(s,a)

معادلات بل‌من Bellman equations

حل فرآیند تصمیم‌گیری مارکوف Solving a Markov decision process

مرور: روش‌های مونت کارلو Refresher: Monte Carlo methods

روش‌های مونت کارلو Monte Carlo methods

حل وظایف کنترلی با روش‌های مونت کارلو Solving control tasks with Monte Carlo methods

کنترل مونت کارلو بر روی خط‌مشی On-policy Monte Carlo control

مرور: روش‌های تفاضل زمانی Refresher: Temporal difference methods

روش‌های تفاضل زمانی Temporal difference methods

حل وظایف کنترلی با روش‌های تفاضل زمانی Solving control tasks with temporal difference methods

روش‌های مونت کارلو در مقابل تفاضل زمانی Monte Carlo vs temporal difference methods

SARSA SARSA

Q-Learning Q-Learning

مزایای روش‌های تفاضل زمانی Advantages of temporal difference methods

مرور: پیش‌بینی N مرحله‌ای Refresher: N-step bootstrapping

روش‌های تفاضل زمانی N مرحله‌ای N-step temporal difference methods

جایگاه روش‌های n مرحله‌ای کجاست؟ Where do n-step methods fit?

تأثیر تغییر n Effect of changing n

مرور: مقدمه‌ای کوتاه بر شبکه‌های عصبی Refresher: Brief introduction to Neural Networks

تقریب‌گرهای تابع Function approximators

شبکه‌های عصبی مصنوعی Artificial Neural Networks

نورون‌های مصنوعی Artificial Neurons

چگونه یک شبکه عصبی را نمایش دهیم How to represent a Neural Network

گرادیان کاهشی تصادفی Stochastic Gradient Descent

بهینه‌سازی شبکه عصبی Neural Network optimization

مرور: REINFORCE Refresher: REINFORCE

روش‌های گرادیان خط‌مشی Policy gradient methods

نمایش خط‌مشی‌ها با استفاده از شبکه‌های عصبی Representing policies using neural networks

عملکرد خط‌مشی Policy performance

قضیه گرادیان خط‌مشی The policy gradient theorem

REINFORCE REINFORCE

یادگیری موازی Parallel learning

تنظیم آنتروپی Entropy regularization

REINFORCE 2 REINFORCE 2

PyTorch Lightning PyTorch Lightning

PyTorch Lightning PyTorch Lightning

لینک به دفترچه کد Link to the code notebook

ایجاد خط‌مشی Create the policy

ایجاد محیط Create the environment

ایجاد مجموعه داده Create the dataset

ایجاد الگوریتم REINFORCE - بخش ۱ Create the REINFORCE algorithm - Part 1

ایجاد الگوریتم REINFORCE - بخش ۲ Create the REINFORCE algorithm - Part 2

بررسی عامل نتیجه Check the resulting agent

REINFORCE برای وظایف کنترلی پیوسته REINFORCE for continuous control tasks

REINFORCE برای فضاهای عمل پیوسته REINFORCE for continuous action spaces

لینک به دفترچه کد Link to the code notebook

ایجاد خط‌مشی Create the policy

ایجاد محیط آونگ وارونه Create the inverted pendulum environment

ایجاد مجموعه داده Create the dataset

ایجاد الگوریتم - بخش ۱ Creating the algorithm - Part 1

ایجاد الگوریتم - بخش ۲ Creating the algorithm - Part 2

بررسی عامل نتیجه Check the resulting agent

بازیگر-منتقد مزیت (A2C) Advantage Actor Critic (A2C)

A2C A2C

لینک به دفترچه کد Link to the code notebook

ایجاد خط‌مشی و شبکه ارزش Create the policy and value network

ایجاد محیط Create the environment

ایجاد مجموعه داده Create the dataset