دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش Reinforcement Learning (انگلیسی): Master the Art of RL

Reinforcement Learning (English): Master the Art of RL

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: یادگیری تقویتی تعریف کنید که یادگیری تقویتی چیست؟ همه چیزهایی را که با استفاده از کتابخانه‌های پیشرفته مانند OpenAI Gym، StabeBaselines، Keras-RL و TensorFlow Agents آموخته‌اید، اعمال کنید. دامنه‌های برنامه‌ها و داستان‌های موفقیت RL را تعریف کنید؟ تفاوت بین یادگیری تقویتی و نظارت شده را تعریف کنید؟ اجزای اصلی راه اندازی مشکل RL را تعریف کنید؟ اجزای اصلی یک عامل RL و طبقه بندی آنها را تعریف کنید؟ تعریف فرآیند پاداش مارکوف (MRP) و فرآیند تصمیم گیری مارکوف (MDP) چیست؟ تعریف فضای راه حل RL با استفاده از چارچوب MDP حل مسائل RL با استفاده از برنامه ریزی با الگوریتم های برنامه نویسی پویا، مانند ارزیابی خط مشی، تکرار خط مشی و تکرار ارزش حل مسائل RL با استفاده از الگوریتم های بدون مدل مانند مونت کارلو، یادگیری TD، یادگیری Q و SARSA Differentiate. الگوریتم‌های درون‌سیاست و خارج از خط‌مشی الگوریتم‌های یادگیری تقویت‌کننده عمیق مانند Deep Q-Networks (DQN) را مسلط کنید و آن‌ها را در الگوریتم‌های Gradients Master Policy RL در مقیاس بزرگ و الگوریتم‌های پیشرفته DRLDPG Actor-Critic (AC، A2C، A3C) را اعمال کنید. ، TRPO و PPO تعریف کنید که RL مبتنی بر مدل چیست و آن را از برنامه ریزی متمایز کنید و الگوریتم ها و کاربردهای اصلی آنها چیست؟ پیش نیازها:مبانی یادگیری ماشینی اصول یادگیری عمیق اصول برنامه نویسی احتمالات و مبانی حل مسئله برنامه نویسی پایتون

سلام و به دوره ما خوش آمدید. یادگیری تقویتی.

یادگیری تقویتی یک زمینه بسیار هیجان انگیز و مهم در یادگیری ماشین و هوش مصنوعی است. برخی آن را جواهر تاج هوش مصنوعی می نامند.

در این دوره، ما تمام جنبه های مربوط به یادگیری تقویتی یا RL را پوشش خواهیم داد. ما با تعریف مسئله RL شروع می کنیم و آن را با مسئله یادگیری نظارت شده مقایسه می کنیم و حوزه هایی از برنامه ها را کشف می کنیم که RL می تواند برتری داشته باشد. این شامل فرمول‌بندی مسئله می‌شود، از اصول اولیه تا استفاده پیشرفته از یادگیری عمیق شروع می‌شود و به عصر یادگیری تقویتی عمیق منتهی می‌شود.

در سفر خود، طبق معمول، هر دو جنبه نظری و عملی را پوشش خواهیم داد، جایی که یاد می‌گیریم چگونه الگوریتم‌های RL را پیاده‌سازی کنیم و آن‌ها را با استفاده از کتابخانه‌هایی مانند OpenAI Gym، Keras-RL، TensorFlow Agents در مسائل معروف به کار ببریم. یا TF-Agents and Stable Baselines.

این دوره به 6 بخش اصلی تقسیم می شود:

1- ما با مقدمه‌ای بر تعریف مسئله RL شروع می‌کنیم، عمدتاً آن را با مسئله یادگیری نظارت شده مقایسه می‌کنیم و حوزه‌های کاربردی و اجزای اصلی یک مسئله RL را کشف می‌کنیم. ما در اینجا محیط‌های معروف OpenAI Gym را شرح می‌دهیم، که وقتی صحبت از اجرای عملی الگوریتم‌هایی می‌شود که در مورد آنها یاد می‌گیریم، زمین بازی ما خواهد بود.

2- در قسمت دوم، فرمول اصلی یک مسئله RL را به عنوان یک فرآیند تصمیم گیری مارکوف یا MDP با راه حل ساده برای اساسی ترین مسائل با استفاده از برنامه نویسی پویا مورد بحث قرار می دهیم.

3- پس از مسلح شدن به درک MDP، به بررسی فضای راه حل مسئله MDP و راه حل های مختلف فراتر از DP می پردازیم که شامل راه حل های مبتنی بر مدل و بدون مدل است. ما در این بخش بر روی راه حل های بدون مدل تمرکز می کنیم و راه حل های مبتنی بر مدل را به قسمت آخر موکول می کنیم. در این بخش، روش‌های مبتنی بر نمونه‌گیری مونت کارلو و تفاوت زمانی، از جمله الگوریتم معروف و مهم یادگیری Q و SARSA را شرح می‌دهیم. ما کاربرد و اجرای عملی Q-learning و SARSA را در کنترل مشکلات پیچ و خم جدولی از محیط های OpenAI Gym شرح خواهیم داد.

4- برای فراتر رفتن از مسائل ساده جدولی، باید در مورد تقریب تابع در RL بیاموزیم، که امروزه به روش‌های اصلی RL با استفاده از یادگیری عمیق یا یادگیری تقویتی عمیق (DRL) منجر می‌شود. ما در اینجا الگوریتم موفقیت آمیز DeepMind را توضیح خواهیم داد که بازی های Atari و AlphaGO را حل کرده است که Deep Q-Networks یا DQN است. همچنین در مورد اینکه چگونه می‌توانیم مشکلات بازی‌های Atari را با استفاده از DQN در عمل با استفاده از Keras-RL و TF-Agents حل کنیم، بحث می‌کنیم.

5- در قسمت پنجم به سراغ الگوریتم‌های Advanced DRL می‌رویم، عمدتاً تحت خانواده‌ای به نام روش‌های مبتنی بر سیاست. ما در اینجا درباره روش‌های Gradients Policy، DDPG، Actor-Critic، A2C، A3C، TRPO و PPO بحث می‌کنیم. همچنین درباره کتابخانه مهم Stable Baseline برای پیاده‌سازی همه آن الگوریتم‌ها در محیط‌های مختلف در OpenAI Gym، مانند Atari و دیگران بحث می‌کنیم.

6- در نهایت، خانواده روش‌های RL مبتنی بر مدل را بررسی می‌کنیم و مهمتر از آن، RL مبتنی بر مدل را از برنامه‌ریزی متمایز می‌کنیم و کل طیف روش‌های RL را بررسی می‌کنیم.

امیدواریم از این دوره لذت ببرید و آن را مفید بدانید.

سرفصل ها و درس ها

معرفی Introduction

معرفی دوره Course introduction
نمای کلی دوره Course overview

مقدمه ای بر یادگیری تقویتی Introduction to Reinforcement Learning

معرفی ماژول و نقشه راه Module intro and roadmap
RL چیست؟ What is RL?
RL چه کاری می تواند انجام دهد؟ What RL can do?
راه اندازی مشکل RL (AREA) The RL problem setup (AREA)
جایزه Reward
RL در مقابل یادگیری تحت نظارت RL vs. Supervised Learning
حالت State
نمونه های AREA و آزمونها AREA examples and quizes
محیط های بدنسازی Gym Environments
داخل عامل RL - مواد تشکیل دهنده عامل RL Inside RL agent - RL agent ingredients
خط مشی Policy
ارزش Value
مدل Model
طبقه بندی عوامل RL RL agents taxonomy
پیش بینی در مقابل کنترل Prediction vs Control

فرآیند تصمیم گیری مارکوف (MDP) Markov Decision Process (MDP)

معرفی ماژول و نقشه راه Module intro and roadmap
زنجیره مارکوف و فرآیند مارکوف (MP) Markov Chain and Markov Process (MP)
فرآیند پاداش مارکوف (MRP) Markov Reward Process (MRP)
فرآیند تصمیم گیری مارکوف (MDP) Markov Decision Process (MDP)
پیش بینی Prediction
معادلات بلمن با تابع مقدار عمل Q Bellman Equations with action-value function Q
کنترل Control

فضاهای راه حل های MDP MDP solutions spaces

معرفی ماژول و نقشه راه Module intro and roadmap
برنامه ریزی با برنامه نویسی پویا (DP) Planning with Dynamic Programming (DP)
پیش بینی با DP - ارزیابی سیاست Prediction with DP - Policy Evaluation
کنترل با DP - تکرار سیاست و تکرار ارزش Control with DP - Policy Iteration and Value Iteration
مثال تکرار ارزش Value Iteration example
پیش بینی با مونت کارلو - ارزیابی خط مشی MC Prediction with Monte-Carlo - MC Policy Evaluation
پیش‌بینی با اختلاف زمانی (TD) Prediction with Temporal-Difference (TD)
تی دی لامبدا TD Lambda
کنترل با مونت کارلو - تکرار سیاست MC Control with Monte-Carlo - MC Policy Iteration
کنترل با TD - SARSA Control with TD - SARSA
خارج از سیاست در مقابل سیاست خارجی On-policy vs. Off-policy
یادگیری کیو Q-learning
خلاصه راه حل های MDP MDP solutions summary

یادگیری تقویتی عمیق (DRL) Deep Reinforcement Learning (DRL)

معرفی ماژول و نقشه راه Module intro and roadmap
یادگیری تقویتی در مقیاس بزرگ Large Scale Reinforcement Learning
DNN به عنوان تقریبگر تابع DNN as function approximator
تقریب تابع ارزش Value Function Approximation
سیاست های DNN DNN policies
تقریب تابع مقدار با الگوی رمزگذار-رمزگشا DL Value function approximation with DL encoder-decoder pattern
Deep Q-Networks (DQN) Deep Q-Networks (DQN)
مثال DQN Atari با Keras-RL و TF-Agents DQN Atari Example with Keras-RL and TF-Agents

DRL پیشرفته Advanced DRL

معرفی ماژول و نقشه راه Module intro and roadmap
ارزش‌محور در مقابل سیاست‌محور در مقابل بازیگر منتقد Value-based vs Policy based vs Actor-Critic
گرادیان خط مشی (PG) Policy Gradients (PG)
REINFORCE - Monte-Carlo PG REINFORCE - Monte-Carlo PG
AC - بازیگر- منتقد AC - Actor-Critic
A2C - Advantage Actor-Critic A2C - Advantage Actor-Critic
A3C - Asynchronous Advantage Actor-Critic A3C - Asynchronous Advantage Actor-Critic
TRPO - بهینه سازی خط مشی منطقه مورد اعتماد TRPO - Trusted Region Policy Optimization
PPO - بهینه سازی سیاست پروگزیمال PPO - Proximal Policy Optimization
DDPG - گرادیان های سیاست تعیین کننده عمیق DDPG - Deep Determinstic Policy Gradients
نمای کلی کتابخانه StableBaselines StableBaselines library overview
نمونه آتاری با خطوط پایه پایدار Atari example with stable-baselines
نمونه ماریو با خطوط پایه پایدار Mario example with stable-baselines
مثال StreetFighter با خطوط پایه پایدار StreetFighter example with stable-baselines

یادگیری تقویتی مبتنی بر مدل Model-based Reinforcement Learning

معرفی ماژول و نقشه راه Module intro and roadmap
روش های یادگیری مدل Model learning methods
مدل یادگیری با یادگیری نظارت شده و تقریب تابع Model learning with Supervised Learning and Function Approximation
برنامه ریزی مبتنی بر نمونه Sample based planning
Dyna - برنامه ریزی و یادگیری بازجویی Dyna - Intergation planning and Learning

نتیجه Conclusion

نتیجه Conclusion

مواد Material

اسلایدها Slides

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش Reinforcement Learning (انگلیسی): Master the Art of RL

جزییات دوره

زمان دوره: 9 hours

تعداد ویدیو ها: 66

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 3,357

امتیاز مرجع: 4.9 از 5

فایل تمرین: ندارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Coursatai Dr Ahmad ElSallab

لینک کوتاه این دوره

https://donyad.com/d/962597

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

دنیاد

آموزش Reinforcement Learning (انگلیسی): Master the Art of RL

Reinforcement Learning (English): Master the Art of RL

معرفی Introduction

معرفی دوره Course introduction

نمای کلی دوره Course overview

مقدمه ای بر یادگیری تقویتی Introduction to Reinforcement Learning

معرفی ماژول و نقشه راه Module intro and roadmap

RL چیست؟ What is RL?

RL چه کاری می تواند انجام دهد؟ What RL can do?

راه اندازی مشکل RL (AREA) The RL problem setup (AREA)

جایزه Reward

RL در مقابل یادگیری تحت نظارت RL vs. Supervised Learning

حالت State

نمونه های AREA و آزمونها AREA examples and quizes

محیط های بدنسازی Gym Environments

داخل عامل RL - مواد تشکیل دهنده عامل RL Inside RL agent - RL agent ingredients

خط مشی Policy

ارزش Value

مدل Model

طبقه بندی عوامل RL RL agents taxonomy

پیش بینی در مقابل کنترل Prediction vs Control

فرآیند تصمیم گیری مارکوف (MDP) Markov Decision Process (MDP)

معرفی ماژول و نقشه راه Module intro and roadmap

زنجیره مارکوف و فرآیند مارکوف (MP) Markov Chain and Markov Process (MP)

فرآیند پاداش مارکوف (MRP) Markov Reward Process (MRP)

فرآیند تصمیم گیری مارکوف (MDP) Markov Decision Process (MDP)

پیش بینی Prediction

معادلات بلمن با تابع مقدار عمل Q Bellman Equations with action-value function Q

کنترل Control

فضاهای راه حل های MDP MDP solutions spaces

معرفی ماژول و نقشه راه Module intro and roadmap

برنامه ریزی با برنامه نویسی پویا (DP) Planning with Dynamic Programming (DP)

پیش بینی با DP - ارزیابی سیاست Prediction with DP - Policy Evaluation

کنترل با DP - تکرار سیاست و تکرار ارزش Control with DP - Policy Iteration and Value Iteration

مثال تکرار ارزش Value Iteration example

پیش بینی با مونت کارلو - ارزیابی خط مشی MC Prediction with Monte-Carlo - MC Policy Evaluation

پیش‌بینی با اختلاف زمانی (TD) Prediction with Temporal-Difference (TD)

تی دی لامبدا TD Lambda

کنترل با مونت کارلو - تکرار سیاست MC Control with Monte-Carlo - MC Policy Iteration

کنترل با TD - SARSA Control with TD - SARSA

خارج از سیاست در مقابل سیاست خارجی On-policy vs. Off-policy

یادگیری کیو Q-learning

خلاصه راه حل های MDP MDP solutions summary

یادگیری تقویتی عمیق (DRL) Deep Reinforcement Learning (DRL)

معرفی ماژول و نقشه راه Module intro and roadmap

یادگیری تقویتی در مقیاس بزرگ Large Scale Reinforcement Learning

DNN به عنوان تقریبگر تابع DNN as function approximator

تقریب تابع ارزش Value Function Approximation

سیاست های DNN DNN policies

تقریب تابع مقدار با الگوی رمزگذار-رمزگشا DL Value function approximation with DL encoder-decoder pattern

Deep Q-Networks (DQN) Deep Q-Networks (DQN)

مثال DQN Atari با Keras-RL و TF-Agents DQN Atari Example with Keras-RL and TF-Agents

DRL پیشرفته Advanced DRL

معرفی ماژول و نقشه راه Module intro and roadmap

ارزش‌محور در مقابل سیاست‌محور در مقابل بازیگر منتقد Value-based vs Policy based vs Actor-Critic

گرادیان خط مشی (PG) Policy Gradients (PG)

REINFORCE - Monte-Carlo PG REINFORCE - Monte-Carlo PG

AC - بازیگر- منتقد AC - Actor-Critic

A2C - Advantage Actor-Critic A2C - Advantage Actor-Critic

A3C - Asynchronous Advantage Actor-Critic A3C - Asynchronous Advantage Actor-Critic

TRPO - بهینه سازی خط مشی منطقه مورد اعتماد TRPO - Trusted Region Policy Optimization

PPO - بهینه سازی سیاست پروگزیمال PPO - Proximal Policy Optimization

DDPG - گرادیان های سیاست تعیین کننده عمیق DDPG - Deep Determinstic Policy Gradients

نمای کلی کتابخانه StableBaselines StableBaselines library overview

نمونه آتاری با خطوط پایه پایدار Atari example with stable-baselines

نمونه ماریو با خطوط پایه پایدار Mario example with stable-baselines

مثال StreetFighter با خطوط پایه پایدار StreetFighter example with stable-baselines

یادگیری تقویتی مبتنی بر مدل Model-based Reinforcement Learning

معرفی ماژول و نقشه راه Module intro and roadmap

روش های یادگیری مدل Model learning methods

مدل یادگیری با یادگیری نظارت شده و تقریب تابع Model learning with Supervised Learning and Function Approximation

برنامه ریزی مبتنی بر نمونه Sample based planning

Dyna - برنامه ریزی و یادگیری بازجویی Dyna - Intergation planning and Learning

نتیجه Conclusion

نتیجه Conclusion

مواد Material

اسلایدها Slides

نمایش نظرات

https://donyad.com/d/962597