آموزش Reinforcement Learning (انگلیسی): Master the Art of RL

Reinforcement Learning (English): Master the Art of RL

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
توضیحات دوره: یادگیری تقویتی تعریف کنید که یادگیری تقویتی چیست؟ همه چیزهایی را که با استفاده از کتابخانه‌های پیشرفته مانند OpenAI Gym، StabeBaselines، Keras-RL و TensorFlow Agents آموخته‌اید، اعمال کنید. دامنه‌های برنامه‌ها و داستان‌های موفقیت RL را تعریف کنید؟ تفاوت بین یادگیری تقویتی و نظارت شده را تعریف کنید؟ اجزای اصلی راه اندازی مشکل RL را تعریف کنید؟ اجزای اصلی یک عامل RL و طبقه بندی آنها را تعریف کنید؟ تعریف فرآیند پاداش مارکوف (MRP) و فرآیند تصمیم گیری مارکوف (MDP) چیست؟ تعریف فضای راه حل RL با استفاده از چارچوب MDP حل مسائل RL با استفاده از برنامه ریزی با الگوریتم های برنامه نویسی پویا، مانند ارزیابی خط مشی، تکرار خط مشی و تکرار ارزش حل مسائل RL با استفاده از الگوریتم های بدون مدل مانند مونت کارلو، یادگیری TD، یادگیری Q و SARSA Differentiate. الگوریتم‌های درون‌سیاست و خارج از خط‌مشی الگوریتم‌های یادگیری تقویت‌کننده عمیق مانند Deep Q-Networks (DQN) را مسلط کنید و آن‌ها را در الگوریتم‌های Gradients Master Policy RL در مقیاس بزرگ و الگوریتم‌های پیشرفته DRLDPG Actor-Critic (AC، A2C، A3C) را اعمال کنید. ، TRPO و PPO تعریف کنید که RL مبتنی بر مدل چیست و آن را از برنامه ریزی متمایز کنید و الگوریتم ها و کاربردهای اصلی آنها چیست؟ پیش نیازها:مبانی یادگیری ماشینی اصول یادگیری عمیق اصول برنامه نویسی احتمالات و مبانی حل مسئله برنامه نویسی پایتون

سلام و به دوره ما خوش آمدید. یادگیری تقویتی.

یادگیری تقویتی یک زمینه بسیار هیجان انگیز و مهم در یادگیری ماشین و هوش مصنوعی است. برخی آن را جواهر تاج هوش مصنوعی می نامند.

در این دوره، ما تمام جنبه های مربوط به یادگیری تقویتی یا RL را پوشش خواهیم داد. ما با تعریف مسئله RL شروع می کنیم و آن را با مسئله یادگیری نظارت شده مقایسه می کنیم و حوزه هایی از برنامه ها را کشف می کنیم که RL می تواند برتری داشته باشد. این شامل فرمول‌بندی مسئله می‌شود، از اصول اولیه تا استفاده پیشرفته از یادگیری عمیق شروع می‌شود و به عصر یادگیری تقویتی عمیق منتهی می‌شود.

در سفر خود، طبق معمول، هر دو جنبه نظری و عملی را پوشش خواهیم داد، جایی که یاد می‌گیریم چگونه الگوریتم‌های RL را پیاده‌سازی کنیم و آن‌ها را با استفاده از کتابخانه‌هایی مانند OpenAI Gym، Keras-RL، TensorFlow Agents در مسائل معروف به کار ببریم. یا TF-Agents and Stable Baselines.

این دوره به 6 بخش اصلی تقسیم می شود:

1- ما با مقدمه‌ای بر تعریف مسئله RL شروع می‌کنیم، عمدتاً آن را با مسئله یادگیری نظارت شده مقایسه می‌کنیم و حوزه‌های کاربردی و اجزای اصلی یک مسئله RL را کشف می‌کنیم. ما در اینجا محیط‌های معروف OpenAI Gym را شرح می‌دهیم، که وقتی صحبت از اجرای عملی الگوریتم‌هایی می‌شود که در مورد آنها یاد می‌گیریم، زمین بازی ما خواهد بود.


2- در قسمت دوم، فرمول اصلی یک مسئله RL را به عنوان یک فرآیند تصمیم گیری مارکوف یا MDP با راه حل ساده برای اساسی ترین مسائل با استفاده از برنامه نویسی پویا مورد بحث قرار می دهیم.


3- پس از مسلح شدن به درک MDP، به بررسی فضای راه حل مسئله MDP و راه حل های مختلف فراتر از DP می پردازیم که شامل راه حل های مبتنی بر مدل و بدون مدل است. ما در این بخش بر روی راه حل های بدون مدل تمرکز می کنیم و راه حل های مبتنی بر مدل را به قسمت آخر موکول می کنیم. در این بخش، روش‌های مبتنی بر نمونه‌گیری مونت کارلو و تفاوت زمانی، از جمله الگوریتم معروف و مهم یادگیری Q و SARSA را شرح می‌دهیم. ما کاربرد و اجرای عملی Q-learning و SARSA را در کنترل مشکلات پیچ و خم جدولی از محیط های OpenAI Gym شرح خواهیم داد.


4- برای فراتر رفتن از مسائل ساده جدولی، باید در مورد تقریب تابع در RL بیاموزیم، که امروزه به روش‌های اصلی RL با استفاده از یادگیری عمیق یا یادگیری تقویتی عمیق (DRL) منجر می‌شود. ما در اینجا الگوریتم موفقیت آمیز DeepMind را توضیح خواهیم داد که بازی های Atari و AlphaGO را حل کرده است که Deep Q-Networks یا DQN است. همچنین در مورد اینکه چگونه می‌توانیم مشکلات بازی‌های Atari را با استفاده از DQN در عمل با استفاده از Keras-RL و TF-Agents حل کنیم، بحث می‌کنیم.


5- در قسمت پنجم به سراغ الگوریتم‌های Advanced DRL می‌رویم، عمدتاً تحت خانواده‌ای به نام روش‌های مبتنی بر سیاست. ما در اینجا درباره روش‌های Gradients Policy، DDPG، Actor-Critic، A2C، A3C، TRPO و PPO بحث می‌کنیم. همچنین درباره کتابخانه مهم Stable Baseline برای پیاده‌سازی همه آن الگوریتم‌ها در محیط‌های مختلف در OpenAI Gym، مانند Atari و دیگران بحث می‌کنیم.


6- در نهایت، خانواده روش‌های RL مبتنی بر مدل را بررسی می‌کنیم و مهمتر از آن، RL مبتنی بر مدل را از برنامه‌ریزی متمایز می‌کنیم و کل طیف روش‌های RL را بررسی می‌کنیم.


امیدواریم از این دوره لذت ببرید و آن را مفید بدانید.




سرفصل ها و درس ها

معرفی Introduction

  • معرفی دوره Course introduction

  • نمای کلی دوره Course overview

مقدمه ای بر یادگیری تقویتی Introduction to Reinforcement Learning

  • معرفی ماژول و نقشه راه Module intro and roadmap

  • RL چیست؟ What is RL?

  • RL چه کاری می تواند انجام دهد؟ What RL can do?

  • راه اندازی مشکل RL (AREA) The RL problem setup (AREA)

  • جایزه Reward

  • RL در مقابل یادگیری تحت نظارت RL vs. Supervised Learning

  • حالت State

  • نمونه های AREA و آزمونها AREA examples and quizes

  • محیط های بدنسازی Gym Environments

  • داخل عامل RL - مواد تشکیل دهنده عامل RL Inside RL agent - RL agent ingredients

  • خط مشی Policy

  • ارزش Value

  • مدل Model

  • طبقه بندی عوامل RL RL agents taxonomy

  • پیش بینی در مقابل کنترل Prediction vs Control

فرآیند تصمیم گیری مارکوف (MDP) Markov Decision Process (MDP)

  • معرفی ماژول و نقشه راه Module intro and roadmap

  • زنجیره مارکوف و فرآیند مارکوف (MP) Markov Chain and Markov Process (MP)

  • فرآیند پاداش مارکوف (MRP) Markov Reward Process (MRP)

  • فرآیند تصمیم گیری مارکوف (MDP) Markov Decision Process (MDP)

  • پیش بینی Prediction

  • معادلات بلمن با تابع مقدار عمل Q Bellman Equations with action-value function Q

  • کنترل Control

فضاهای راه حل های MDP MDP solutions spaces

  • معرفی ماژول و نقشه راه Module intro and roadmap

  • برنامه ریزی با برنامه نویسی پویا (DP) Planning with Dynamic Programming (DP)

  • پیش بینی با DP - ارزیابی سیاست Prediction with DP - Policy Evaluation

  • کنترل با DP - تکرار سیاست و تکرار ارزش Control with DP - Policy Iteration and Value Iteration

  • مثال تکرار ارزش Value Iteration example

  • پیش بینی با مونت کارلو - ارزیابی خط مشی MC Prediction with Monte-Carlo - MC Policy Evaluation

  • پیش‌بینی با اختلاف زمانی (TD) Prediction with Temporal-Difference (TD)

  • تی دی لامبدا TD Lambda

  • کنترل با مونت کارلو - تکرار سیاست MC Control with Monte-Carlo - MC Policy Iteration

  • کنترل با TD - SARSA Control with TD - SARSA

  • خارج از سیاست در مقابل سیاست خارجی On-policy vs. Off-policy

  • یادگیری کیو Q-learning

  • خلاصه راه حل های MDP MDP solutions summary

یادگیری تقویتی عمیق (DRL) Deep Reinforcement Learning (DRL)

  • معرفی ماژول و نقشه راه Module intro and roadmap

  • یادگیری تقویتی در مقیاس بزرگ Large Scale Reinforcement Learning

  • DNN به عنوان تقریبگر تابع DNN as function approximator

  • تقریب تابع ارزش Value Function Approximation

  • سیاست های DNN DNN policies

  • تقریب تابع مقدار با الگوی رمزگذار-رمزگشا DL Value function approximation with DL encoder-decoder pattern

  • Deep Q-Networks (DQN) Deep Q-Networks (DQN)

  • مثال DQN Atari با Keras-RL و TF-Agents DQN Atari Example with Keras-RL and TF-Agents

DRL پیشرفته Advanced DRL

  • معرفی ماژول و نقشه راه Module intro and roadmap

  • ارزش‌محور در مقابل سیاست‌محور در مقابل بازیگر منتقد Value-based vs Policy based vs Actor-Critic

  • گرادیان خط مشی (PG) Policy Gradients (PG)

  • REINFORCE - Monte-Carlo PG REINFORCE - Monte-Carlo PG

  • AC - بازیگر- منتقد AC - Actor-Critic

  • A2C - Advantage Actor-Critic A2C - Advantage Actor-Critic

  • A3C - Asynchronous Advantage Actor-Critic A3C - Asynchronous Advantage Actor-Critic

  • TRPO - بهینه سازی خط مشی منطقه مورد اعتماد TRPO - Trusted Region Policy Optimization

  • PPO - بهینه سازی سیاست پروگزیمال PPO - Proximal Policy Optimization

  • DDPG - گرادیان های سیاست تعیین کننده عمیق DDPG - Deep Determinstic Policy Gradients

  • نمای کلی کتابخانه StableBaselines StableBaselines library overview

  • نمونه آتاری با خطوط پایه پایدار Atari example with stable-baselines

  • نمونه ماریو با خطوط پایه پایدار Mario example with stable-baselines

  • مثال StreetFighter با خطوط پایه پایدار StreetFighter example with stable-baselines

یادگیری تقویتی مبتنی بر مدل Model-based Reinforcement Learning

  • معرفی ماژول و نقشه راه Module intro and roadmap

  • روش های یادگیری مدل Model learning methods

  • مدل یادگیری با یادگیری نظارت شده و تقریب تابع Model learning with Supervised Learning and Function Approximation

  • برنامه ریزی مبتنی بر نمونه Sample based planning

  • Dyna - برنامه ریزی و یادگیری بازجویی Dyna - Intergation planning and Learning

نتیجه Conclusion

  • نتیجه Conclusion

مواد Material

  • اسلایدها Slides

نمایش نظرات

نظری ارسال نشده است.

آموزش Reinforcement Learning (انگلیسی): Master the Art of RL
خرید اشتراک و دانلود خرید تکی و دانلود | 160,000 تومان (5 روز مهلت دانلود) زمان تقریبی آماده سازی لینک دانلود این دوره آموزشی حدود 5 تا 24 ساعت می باشد.
جزییات دوره
9 hours
66
Udemy (یودمی) udemy-small
19 اردیبهشت 1402 (آخرین آپدیت رو دریافت می‌کنید، حتی اگر این تاریخ بروز نباشد.)
3,357
4.9 از 5
ندارد
دارد
دارد

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Coursatai Dr Ahmad ElSallab Coursatai Dr Ahmad ElSallab

دوره های عملی هوش مصنوعی

Udemy (یودمی)

یودمی یکی از بزرگ‌ترین پلتفرم‌های آموزشی آنلاین است که به میلیون‌ها کاربر در سراسر جهان امکان دسترسی به دوره‌های متنوع و کاربردی را فراهم می‌کند. این پلتفرم امکان آموزش در زمینه‌های مختلف از فناوری اطلاعات و برنامه‌نویسی گرفته تا زبان‌های خارجی، مدیریت، و هنر را به کاربران ارائه می‌دهد. با استفاده از یودمی، کاربران می‌توانند به صورت انعطاف‌پذیر و بهینه، مهارت‌های جدیدی را یاد بگیرند و خود را برای بازار کار آماده کنند.

یکی از ویژگی‌های برجسته یودمی، کیفیت بالای دوره‌ها و حضور استادان مجرب و با تجربه در هر حوزه است. این امر به کاربران اعتماد می‌دهد که در حال دریافت آموزش از منابع قابل اعتماد و معتبر هستند و می‌توانند به بهترین شکل ممکن از آموزش‌ها بهره ببرند. به طور خلاصه، یودمی به عنوان یکی از معتبرترین و موثرترین پلتفرم‌های آموزشی آنلاین، به افراد امکان می‌دهد تا به راحتی و با کیفیت، مهارت‌های مورد نیاز خود را ارتقا دهند و به دنبال رشد و پیشرفت شغلی خود باشند.