آموزش یادگیری تقویتی پیشرفته: روش‌های گرادیان سیاست - آخرین آپدیت

دانلود Advanced Reinforcement Learning: policy gradient methods

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

ساخت عوامل هوش مصنوعی با یادگیری تقویتی عمیق و PyTorch

با این دوره جامع، یادگیری تقویتی عمیق (Deep Reinforcement Learning) را با استفاده از کتابخانه‌های قدرتمند پایتون مانند PyTorch و PyTorch Lightning بیاموزید.

در این دوره چه می‌آموزید؟

  • ساخت عوامل هوش مصنوعی (AI Agents) با استفاده از الگوریتم‌های پیشرفته یادگیری تقویتی عمیق مانند REINFORCE، A2C، PPO و ...
  • تسلط بر پیشرفته‌ترین الگوریتم‌های یادگیری تقویتی.
  • ایجاد هوش مصنوعی‌هایی که قادر به عمل در محیط‌های پیچیده برای دستیابی به اهداف خود هستند.
  • پیاده‌سازی عوامل یادگیری تقویتی پیشرفته از ابتدا با استفاده از محبوب‌ترین ابزارهای پایتون (PyTorch Lightning، OpenAI Gym، Optuna).
  • تنظیم ابرپارامترها (Hyperparameter Tuning) برای بهینه‌سازی فرآیند یادگیری هوش مصنوعی.
  • درک عمیق فرآیند یادگیری هر الگوریتم.
  • توانایی اشکال‌زدایی و گسترش الگوریتم‌های موجود.
  • درک و پیاده‌سازی الگوریتم‌های جدید از مقالات پژوهشی.

پیش‌نیازهای دوره:

  • آشنایی کامل با برنامه‌نویسی پایتون.
  • گذراندن دوره "یادگیری تقویتی از مبتدی تا پیشرفته" یا آشنایی با مبانی یادگیری تقویتی (یا مشاهده بخش‌های مقدماتی ارائه شده در این دوره).
  • دانش آمار پایه (میانگین، واریانس، توزیع نرمال).

این دوره جامع‌ترین مجموعه آموزشی یادگیری تقویتی در یودمی است. در اینجا، یاد خواهید گرفت که چگونه برخی از قدرتمندترین الگوریتم‌های یادگیری تقویتی عمیق را با استفاده از PyTorch و PyTorch Lightning در پایتون پیاده‌سازی کنید. عوامل سازگارپذیری را از ابتدا پیاده‌سازی خواهید کرد که وظایف کنترلی را بر اساس تجربه حل می‌کنند. همچنین یاد می‌گیرید که این تکنیک‌ها را با شبکه‌های عصبی و روش‌های یادگیری عمیق ترکیب کنید تا عوامل هوش مصنوعی سازگارپذیری ایجاد کنید که قادر به حل وظایف تصمیم‌گیری باشند.

این دوره شما را با جدیدترین تکنیک‌های یادگیری تقویتی آشنا می‌کند. همچنین شما را برای دوره‌های بعدی این مجموعه آماده می‌سازد، جایی که ما روش‌های پیشرفته دیگری را که در انواع دیگر وظایف برتری دارند، بررسی خواهیم کرد.

تمرکز دوره بر توسعه مهارت‌های عملی است. بنابراین، پس از یادگیری مهم‌ترین مفاهیم هر خانواده از روش‌ها، یک یا چند الگوریتم از آن‌ها را در نوت‌بوک‌های ژوپیتر، از ابتدا پیاده‌سازی خواهیم کرد.

ماژول‌های بازآموزی:

  • بازآموزی: فرآیند تصمیم‌گیری مارکوف (MDP).
  • بازآموزی: روش‌های مونت کارلو (Monte Carlo Methods).
  • بازآموزی: روش‌های تفاوت زمانی (Temporal Difference Methods).
  • بازآموزی: N-step Bootstrapping.
  • بازآموزی: مقدمه‌ای کوتاه بر شبکه‌های عصبی.
  • بازآموزی: روش‌های گرادیان سیاست (Policy Gradient Methods).

یادگیری تقویتی پیشرفته:

  • REINFORCE
  • REINFORCE برای فضاهای عمل پیوسته
  • Actor-Critic مبتنی بر مزیت (A2C)
  • روش‌های ناحیه اعتماد (Trust Region Methods)
  • بهینه‌سازی سیاست پروزیمل (PPO)
  • تخمین مزیت تعمیم یافته (GAE)
  • بهینه‌سازی سیاست ناحیه اعتماد (TRPO)

سرفصل ها و درس ها

مقدمه Introduction

  • مقدمه Introduction

  • سری یادگیری تقویتی Reinforcement Learning series

  • گوگل کولب Google Colab

  • از کجا شروع کنیم Where to begin

  • کد کامل Complete code

  • در شبکه‌های اجتماعی با من در ارتباط باشید Connect with me on social media

مرور: فرآیند تصمیم‌گیری مارکوف (MDP) Refresher: The Markov Decision Process (MDP)

  • عناصر مشترک در تمام وظایف کنترلی Elements common to all control tasks

  • فرآیند تصمیم‌گیری مارکوف (MDP) The Markov decision process (MDP)

  • انواع فرآیند تصمیم‌گیری مارکوف Types of Markov decision process

  • مسیر در مقابل اپیزود Trajectory vs episode

  • پاداش در مقابل بازگشت Reward vs Return

  • فاکتور تخفیف Discount factor

  • خط‌مشی Policy

  • مقادیر حالت v(s) و مقادیر عمل q(s,a) State values v(s) and action values q(s,a)

  • معادلات بل‌من Bellman equations

  • حل فرآیند تصمیم‌گیری مارکوف Solving a Markov decision process

مرور: روش‌های مونت کارلو Refresher: Monte Carlo methods

  • روش‌های مونت کارلو Monte Carlo methods

  • حل وظایف کنترلی با روش‌های مونت کارلو Solving control tasks with Monte Carlo methods

  • کنترل مونت کارلو بر روی خط‌مشی On-policy Monte Carlo control

مرور: روش‌های تفاضل زمانی Refresher: Temporal difference methods

  • روش‌های تفاضل زمانی Temporal difference methods

  • حل وظایف کنترلی با روش‌های تفاضل زمانی Solving control tasks with temporal difference methods

  • روش‌های مونت کارلو در مقابل تفاضل زمانی Monte Carlo vs temporal difference methods

  • SARSA SARSA

  • Q-Learning Q-Learning

  • مزایای روش‌های تفاضل زمانی Advantages of temporal difference methods

مرور: پیش‌بینی N مرحله‌ای Refresher: N-step bootstrapping

  • روش‌های تفاضل زمانی N مرحله‌ای N-step temporal difference methods

  • جایگاه روش‌های n مرحله‌ای کجاست؟ Where do n-step methods fit?

  • تأثیر تغییر n Effect of changing n

مرور: مقدمه‌ای کوتاه بر شبکه‌های عصبی Refresher: Brief introduction to Neural Networks

  • تقریب‌گرهای تابع Function approximators

  • شبکه‌های عصبی مصنوعی Artificial Neural Networks

  • نورون‌های مصنوعی Artificial Neurons

  • چگونه یک شبکه عصبی را نمایش دهیم How to represent a Neural Network

  • گرادیان کاهشی تصادفی Stochastic Gradient Descent

  • بهینه‌سازی شبکه عصبی Neural Network optimization

مرور: REINFORCE Refresher: REINFORCE

  • روش‌های گرادیان خط‌مشی Policy gradient methods

  • نمایش خط‌مشی‌ها با استفاده از شبکه‌های عصبی Representing policies using neural networks

  • عملکرد خط‌مشی Policy performance

  • قضیه گرادیان خط‌مشی The policy gradient theorem

  • REINFORCE REINFORCE

  • یادگیری موازی Parallel learning

  • تنظیم آنتروپی Entropy regularization

  • REINFORCE 2 REINFORCE 2

PyTorch Lightning PyTorch Lightning

  • PyTorch Lightning PyTorch Lightning

  • لینک به دفترچه کد Link to the code notebook

  • ایجاد خط‌مشی Create the policy

  • ایجاد محیط Create the environment

  • ایجاد مجموعه داده Create the dataset

  • ایجاد الگوریتم REINFORCE - بخش ۱ Create the REINFORCE algorithm - Part 1

  • ایجاد الگوریتم REINFORCE - بخش ۲ Create the REINFORCE algorithm - Part 2

  • بررسی عامل نتیجه Check the resulting agent

REINFORCE برای وظایف کنترلی پیوسته REINFORCE for continuous control tasks

  • REINFORCE برای فضاهای عمل پیوسته REINFORCE for continuous action spaces

  • لینک به دفترچه کد Link to the code notebook

  • ایجاد خط‌مشی Create the policy

  • ایجاد محیط آونگ وارونه Create the inverted pendulum environment

  • ایجاد مجموعه داده Create the dataset

  • ایجاد الگوریتم - بخش ۱ Creating the algorithm - Part 1

  • ایجاد الگوریتم - بخش ۲ Creating the algorithm - Part 2

  • بررسی عامل نتیجه Check the resulting agent

بازیگر-منتقد مزیت (A2C) Advantage Actor Critic (A2C)

  • A2C A2C

  • لینک به دفترچه کد Link to the code notebook

  • ایجاد خط‌مشی و شبکه ارزش Create the policy and value network

  • ایجاد محیط Create the environment

  • ایجاد مجموعه داده Create the dataset

  • پیاده‌سازی A2C - بخش ۱ Implement A2C - Part 1

  • پیاده‌سازی A2C - بخش ۲ Implement A2C - Part 2

  • بررسی عامل نتیجه Check the resulting agent

روش‌های منطقه اعتماد Trust region methods

  • جستجوی خطی در مقابل روش‌های منطقه اعتماد Line search vs trust region methods

  • روش‌های جستجوی خطی Line search methods

  • روش‌های منطقه اعتماد ۱ Trust region methods 1

  • واگرایی کولبک-لایبلر Kullback-Leibler divergence

  • روش‌های منطقه اعتماد ۲ Trust region methods 2

  • روش‌های منطقه اعتماد ۳ Trust region methods 3

بهینه‌سازی خط‌مشی پروگزیمال (PPO) Proximal Policy Optimization (PPO)

  • بهینه‌سازی خط‌مشی پروگزیمال Proximal Policy Optimization

  • لینک به دفترچه کد Link to the code notebook

  • ایجاد محیط Create the environment

  • ایجاد مجموعه داده Create the dataset

  • ایجاد الگوریتم PPO - بخش ۱ Create the PPO algorithm - Part 1

  • ایجاد الگوریتم PPO - بخش ۲ Create the PPO algorithm - Part 2

  • بررسی عامل نتیجه Check the resulting agent

تخمین مزیت تعمیم‌یافته (GAE) Generalized Advantage Estimation (GAE)

  • تخمین مزیت تعمیم‌یافته Generalized Advantage Estimation

  • لینک به دفترچه کد Link to the code notebook

  • ایجاد محیط یوزپلنگ نیمه Create the Half Cheetah environment

  • ایجاد مجموعه داده Create the dataset

  • PPO با تخمین مزیت تعمیم‌یافته - بخش ۱ PPO with generalized advantage estimation - Part 1

  • PPO با تخمین مزیت تعمیم‌یافته - بخش ۲ PPO with generalized advantage estimation - Part 2

  • بررسی عامل نتیجه Checking the resulting agent

بهینه‌سازی خط‌مشی منطقه اعتماد (TRPO) Trust Region Policy Optimization (TRPO)

  • بهینه‌سازی خط‌مشی منطقه اعتماد ۱ Trust region policy optimization 1

  • بهینه‌سازی خط‌مشی منطقه اعتماد ۲ Trust region policy optimization 2

  • لینک به دفترچه کد Link to the code notebook

  • TRPO در کد - بخش ۱ TRPO in code - Part 1

  • TRPO در کد - بخش ۲ TRPO in code - Part 2

  • TRPO در کد - بخش ۳ TRPO in code - Part 3

  • TRPO در کد - بخش ۴ TRPO in code - Part 4

  • TRPO در کد - بخش ۵ TRPO in code - Part 5

  • TRPO در کد - بخش ۶ TRPO in code - Part 6

مراحل نهایی Final steps

  • مراحل نهایی Final steps

  • در شبکه‌های اجتماعی با من در ارتباط باشید Connect with me on social media

نمایش نظرات

آموزش یادگیری تقویتی پیشرفته: روش‌های گرادیان سیاست
جزییات دوره
7.5 hours
97
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,732
4.5 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Escape Velocity Labs Escape Velocity Labs

دوره های عملی و جامع هوش مصنوعی