لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش Reinforcement Learning (انگلیسی): Master the Art of RL
Reinforcement Learning (English): Master the Art of RL
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
یادگیری تقویتی تعریف کنید که یادگیری تقویتی چیست؟ همه چیزهایی را که با استفاده از کتابخانههای پیشرفته مانند OpenAI Gym، StabeBaselines، Keras-RL و TensorFlow Agents آموختهاید، اعمال کنید. دامنههای برنامهها و داستانهای موفقیت RL را تعریف کنید؟ تفاوت بین یادگیری تقویتی و نظارت شده را تعریف کنید؟ اجزای اصلی راه اندازی مشکل RL را تعریف کنید؟ اجزای اصلی یک عامل RL و طبقه بندی آنها را تعریف کنید؟ تعریف فرآیند پاداش مارکوف (MRP) و فرآیند تصمیم گیری مارکوف (MDP) چیست؟ تعریف فضای راه حل RL با استفاده از چارچوب MDP حل مسائل RL با استفاده از برنامه ریزی با الگوریتم های برنامه نویسی پویا، مانند ارزیابی خط مشی، تکرار خط مشی و تکرار ارزش حل مسائل RL با استفاده از الگوریتم های بدون مدل مانند مونت کارلو، یادگیری TD، یادگیری Q و SARSA Differentiate. الگوریتمهای درونسیاست و خارج از خطمشی الگوریتمهای یادگیری تقویتکننده عمیق مانند Deep Q-Networks (DQN) را مسلط کنید و آنها را در الگوریتمهای Gradients Master Policy RL در مقیاس بزرگ و الگوریتمهای پیشرفته DRLDPG Actor-Critic (AC، A2C، A3C) را اعمال کنید. ، TRPO و PPO تعریف کنید که RL مبتنی بر مدل چیست و آن را از برنامه ریزی متمایز کنید و الگوریتم ها و کاربردهای اصلی آنها چیست؟ پیش نیازها:مبانی یادگیری ماشینی اصول یادگیری عمیق اصول برنامه نویسی احتمالات و مبانی حل مسئله برنامه نویسی پایتون
سلام و به دوره ما خوش آمدید. یادگیری تقویتی.
یادگیری تقویتی یک زمینه بسیار هیجان انگیز و مهم در یادگیری ماشین و هوش مصنوعی است. برخی آن را جواهر تاج هوش مصنوعی می نامند.
در این دوره، ما تمام جنبه های مربوط به یادگیری تقویتی یا RL را پوشش خواهیم داد. ما با تعریف مسئله RL شروع می کنیم و آن را با مسئله یادگیری نظارت شده مقایسه می کنیم و حوزه هایی از برنامه ها را کشف می کنیم که RL می تواند برتری داشته باشد. این شامل فرمولبندی مسئله میشود، از اصول اولیه تا استفاده پیشرفته از یادگیری عمیق شروع میشود و به عصر یادگیری تقویتی عمیق منتهی میشود.
در سفر خود، طبق معمول، هر دو جنبه نظری و عملی را پوشش خواهیم داد، جایی که یاد میگیریم چگونه الگوریتمهای RL را پیادهسازی کنیم و آنها را با استفاده از کتابخانههایی مانند OpenAI Gym، Keras-RL، TensorFlow Agents در مسائل معروف به کار ببریم. یا TF-Agents and Stable Baselines.
این دوره به 6 بخش اصلی تقسیم می شود:
1- ما با مقدمهای بر تعریف مسئله RL شروع میکنیم، عمدتاً آن را با مسئله یادگیری نظارت شده مقایسه میکنیم و حوزههای کاربردی و اجزای اصلی یک مسئله RL را کشف میکنیم. ما در اینجا محیطهای معروف OpenAI Gym را شرح میدهیم، که وقتی صحبت از اجرای عملی الگوریتمهایی میشود که در مورد آنها یاد میگیریم، زمین بازی ما خواهد بود.
2- در قسمت دوم، فرمول اصلی یک مسئله RL را به عنوان یک فرآیند تصمیم گیری مارکوف یا MDP با راه حل ساده برای اساسی ترین مسائل با استفاده از برنامه نویسی پویا مورد بحث قرار می دهیم.
3- پس از مسلح شدن به درک MDP، به بررسی فضای راه حل مسئله MDP و راه حل های مختلف فراتر از DP می پردازیم که شامل راه حل های مبتنی بر مدل و بدون مدل است. ما در این بخش بر روی راه حل های بدون مدل تمرکز می کنیم و راه حل های مبتنی بر مدل را به قسمت آخر موکول می کنیم. در این بخش، روشهای مبتنی بر نمونهگیری مونت کارلو و تفاوت زمانی، از جمله الگوریتم معروف و مهم یادگیری Q و SARSA را شرح میدهیم. ما کاربرد و اجرای عملی Q-learning و SARSA را در کنترل مشکلات پیچ و خم جدولی از محیط های OpenAI Gym شرح خواهیم داد.
4- برای فراتر رفتن از مسائل ساده جدولی، باید در مورد تقریب تابع در RL بیاموزیم، که امروزه به روشهای اصلی RL با استفاده از یادگیری عمیق یا یادگیری تقویتی عمیق (DRL) منجر میشود. ما در اینجا الگوریتم موفقیت آمیز DeepMind را توضیح خواهیم داد که بازی های Atari و AlphaGO را حل کرده است که Deep Q-Networks یا DQN است. همچنین در مورد اینکه چگونه میتوانیم مشکلات بازیهای Atari را با استفاده از DQN در عمل با استفاده از Keras-RL و TF-Agents حل کنیم، بحث میکنیم.
5- در قسمت پنجم به سراغ الگوریتمهای Advanced DRL میرویم، عمدتاً تحت خانوادهای به نام روشهای مبتنی بر سیاست. ما در اینجا درباره روشهای Gradients Policy، DDPG، Actor-Critic، A2C، A3C، TRPO و PPO بحث میکنیم. همچنین درباره کتابخانه مهم Stable Baseline برای پیادهسازی همه آن الگوریتمها در محیطهای مختلف در OpenAI Gym، مانند Atari و دیگران بحث میکنیم.
6- در نهایت، خانواده روشهای RL مبتنی بر مدل را بررسی میکنیم و مهمتر از آن، RL مبتنی بر مدل را از برنامهریزی متمایز میکنیم و کل طیف روشهای RL را بررسی میکنیم.
امیدواریم از این دوره لذت ببرید و آن را مفید بدانید.
سرفصل ها و درس ها
معرفی
Introduction
معرفی دوره
Course introduction
نمای کلی دوره
Course overview
مقدمه ای بر یادگیری تقویتی
Introduction to Reinforcement Learning
معرفی ماژول و نقشه راه
Module intro and roadmap
RL چیست؟
What is RL?
RL چه کاری می تواند انجام دهد؟
What RL can do?
راه اندازی مشکل RL (AREA)
The RL problem setup (AREA)
جایزه
Reward
RL در مقابل یادگیری تحت نظارت
RL vs. Supervised Learning
حالت
State
نمونه های AREA و آزمونها
AREA examples and quizes
محیط های بدنسازی
Gym Environments
داخل عامل RL - مواد تشکیل دهنده عامل RL
Inside RL agent - RL agent ingredients
خط مشی
Policy
ارزش
Value
مدل
Model
طبقه بندی عوامل RL
RL agents taxonomy
پیش بینی در مقابل کنترل
Prediction vs Control
فرآیند تصمیم گیری مارکوف (MDP)
Markov Decision Process (MDP)
معرفی ماژول و نقشه راه
Module intro and roadmap
زنجیره مارکوف و فرآیند مارکوف (MP)
Markov Chain and Markov Process (MP)
فرآیند پاداش مارکوف (MRP)
Markov Reward Process (MRP)
فرآیند تصمیم گیری مارکوف (MDP)
Markov Decision Process (MDP)
پیش بینی
Prediction
معادلات بلمن با تابع مقدار عمل Q
Bellman Equations with action-value function Q
کنترل
Control
فضاهای راه حل های MDP
MDP solutions spaces
معرفی ماژول و نقشه راه
Module intro and roadmap
برنامه ریزی با برنامه نویسی پویا (DP)
Planning with Dynamic Programming (DP)
پیش بینی با DP - ارزیابی سیاست
Prediction with DP - Policy Evaluation
کنترل با DP - تکرار سیاست و تکرار ارزش
Control with DP - Policy Iteration and Value Iteration
مثال تکرار ارزش
Value Iteration example
پیش بینی با مونت کارلو - ارزیابی خط مشی MC
Prediction with Monte-Carlo - MC Policy Evaluation
پیشبینی با اختلاف زمانی (TD)
Prediction with Temporal-Difference (TD)
تی دی لامبدا
TD Lambda
کنترل با مونت کارلو - تکرار سیاست MC
Control with Monte-Carlo - MC Policy Iteration
کنترل با TD - SARSA
Control with TD - SARSA
خارج از سیاست در مقابل سیاست خارجی
On-policy vs. Off-policy
یادگیری کیو
Q-learning
خلاصه راه حل های MDP
MDP solutions summary
یادگیری تقویتی عمیق (DRL)
Deep Reinforcement Learning (DRL)
معرفی ماژول و نقشه راه
Module intro and roadmap
یادگیری تقویتی در مقیاس بزرگ
Large Scale Reinforcement Learning
DNN به عنوان تقریبگر تابع
DNN as function approximator
تقریب تابع ارزش
Value Function Approximation
سیاست های DNN
DNN policies
تقریب تابع مقدار با الگوی رمزگذار-رمزگشا DL
Value function approximation with DL encoder-decoder pattern
Deep Q-Networks (DQN)
Deep Q-Networks (DQN)
مثال DQN Atari با Keras-RL و TF-Agents
DQN Atari Example with Keras-RL and TF-Agents
DRL پیشرفته
Advanced DRL
معرفی ماژول و نقشه راه
Module intro and roadmap
ارزشمحور در مقابل سیاستمحور در مقابل بازیگر منتقد
Value-based vs Policy based vs Actor-Critic
نمایش نظرات