آموزش مبانی یادگیری تقویتی - آخرین آپدیت

دانلود Fundamentals of Reinforcement Learning

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

در این دوره، سفری سیستماتیک به اعماق مفاهیم بنیادی یادگیری تقویتی (Reinforcement Learning - RL) خواهیم داشت؛ از مسئله باندهای K-مسلح (k-armed bandits) تا برنامه‌ریزی از طریق فرآیندهای تصمیم مارکوف (Markov Decision Processes) و یادگیری TD.

در این دوره چه خواهید آموخت؟

  • تسلط بر مفاهیم اصلی یادگیری تقویتی، از باندهای K-مسلح تا الگوریتم‌های پیشرفته برنامه‌ریزی.
  • پیاده‌سازی الگوریتم‌های کلیدی یادگیری تقویتی از جمله مونت‌کارلو (Monte Carlo)، سارسا (SARSA) و کیو-لرنینگ (Q-learning) از پایه با پایتون.
  • به‌کارگیری تکنیک‌های یادگیری تقویتی برای حل مسائل کلاسیک مانند Frozen Lake، Jack's Car Rental، Blackjack و Cliff Walking.
  • توسعه درک عمیقی از مبانی ریاضی زیربنای رویکردهای نوین یادگیری تقویتی.

پیش‌نیازهای دوره:

  • دانشجویان باید با برنامه‌نویسی پایتون، از جمله کتابخانه‌های NumPy و Pandas، آشنایی کامل داشته باشند.
  • آشنایی اولیه با مفاهیم احتمال (مانند توزیع‌های احتمالی، متغیرهای تصادفی، احتمالات شرطی و مشترک) مفید است.
  • در حالی که آشنایی با سایر روش‌های یادگیری ماشین کمک‌کننده است، اما الزامی نیست. ما مفاهیم ضروری یادگیری تقویتی را از پایه و به‌طور جامع آموزش خواهیم داد.
  • تمرینات هر بخش در پایتون خالص (نه Jupyter Notebooks) هستند و اغلب شامل ویرایش چندین ماژول می‌شوند، بنابراین دانشجویان باید یک ویرایشگر کد (مانند VS Code یا PyCharm) را آماده کنند.

یادگیری تقویتی یکی از هیجان‌انگیزترین و پویاترین شاخه‌های هوش مصنوعی مدرن محسوب می‌شود.

این حوزه عمدتاً به دلیل پیشرفت درخشان اولیه DeepMind در سال ۲۰۱۶، به آگاهی عمومی رسید. آن‌ها با استفاده از یادگیری تقویتی، یک معیار مهم در هوش مصنوعی را که تصور می‌شد تا دهه‌ها دور از دسترس باشد، شکست دادند – در آن سال، DeepMind توانست بزرگترین استاد بزرگ انسانی جهان را در بازی چینی Go شکست دهد.

این دستاورد به دلیل پیچیدگی و بزرگی بی‌حدوحصر درخت بازی Go بسیار استثنایی بود؛ تعداد حرکات ممکن در این بازی به اندازه‌ای است که با عدد ۱ و ۲۰۰ صفر پس از آن (معادل "گورگوگول") توصیف می‌شود! این را با شطرنج مقایسه کنید که تنها ۱۰۵۰ گره در درخت خود دارد.

شطرنج در سال ۱۹۹۷ توسط Deep Blue شرکت IBM، که گری کاسپاروف، بهترین شطرنج‌باز جهان را شکست داد، "حل" شد. Deep Blue نمونه نهایی نسل قبلی هوش مصنوعی – موسوم به هوش مصنوعی قدیمی خوب (GOFAI) – بود. در آن رویکرد، تیمی از استادان بزرگ انسانی، استراتژی‌های شروع بازی، ارزش‌گذاری مهره‌ها و صفحه و پایگاه‌های داده پایان بازی را به‌طور دستی و سخت‌کد شده در یک کامپیوتر قدرتمند وارد کردند که سپس با استفاده از روشی نسبتاً جامع (brute-force)، محاسبات را انجام می‌داد.

اما رویکرد DeepMind کاملاً متفاوت بود. به جای اینکه انسان‌ها قواعد اکتشافی (heuristics) را برای چگونگی انجام یک بازی Go خوب کدگذاری کنند، آن‌ها یادگیری تقویتی را به کار گرفتند. به این ترتیب، الگوریتم‌های آن‌ها – با میلیون‌ها بار بازی کردن با خود و تجربه برد و باخت – توانستند استراتژی‌های بهینه را به‌طور مستقل توسعه دهند.

نتیجه، یک الگوریتم بازی‌کننده‌ای بود که محدود به دانش انسانی نبود. استادان بزرگ Go تا به امروز نیز حرکات منحصربه‌فرد و خلاقانه این الگوریتم را در سری مسابقاتش با لی سه‌دول (Lee Sedol) مطالعه می‌کنند.

از آن زمان، DeepMind نشان داده است که چگونه یادگیری تقویتی می‌تواند به‌طور عملی در مسائل زندگی واقعی به کار گرفته شود. یک عامل یادگیری تقویتی که سیستم خنک‌کننده یک مرکز داده گوگل را کنترل می‌کرد، استراتژی‌هایی یافت که هیچ مهندس کنترل انسانی به آن‌ها فکر نکرده بود؛ از جمله بهره‌برداری از دمای زمستان برای صرفه‌جویی در مصرف بخاری. عامل دیگری از آن‌ها که برای یک رآکتور همجوشی آزمایشی به کار گرفته شد، نیز به طور مشابه استراتژی‌های فراانسانی برای کنترل پلاسمای بسیار پیچیده در رآکتور یافت.

بنابراین، یادگیری تقویتی وعده می‌دهد که به حل برخی از مشکلات بزرگ علم و مهندسی کمک کند. اما همچنین دارای انبوهی از کاربردهای تجاری فوری‌تر نیز هست – از تست A/B محصولات و طراحی وب‌سایت، تا پیاده‌سازی سیستم‌های توصیه‌گر برای یادگیری نحوه تطبیق مشتریان یک شرکت با محصولات آن، تا معاملات الگوریتمی، که هدف آن خرید یا فروش سهام برای به حداکثر رساندن سود است.

این دوره، مبانی هیجان‌انگیزترین شاخه هوش مصنوعی را به شما آموزش خواهد داد. شما هم با نظریه زیربنایی الگوریتم‌ها آشنا خواهید شد و هم تجربه عملی پیاده‌سازی آن‌ها را در پایتون به دست خواهید آورد.

در پایان این دوره، شما درک بنیادی و عمیقی از این الگوریتم‌ها خواهید داشت. ما بر روش‌های "جدولی" (tabular methods) با استفاده از آرایه‌های ساده NumPy تمرکز خواهیم کرد، نه شبکه‌های عصبی. این رویکرد به این دلیل انتخاب شده است که اغلب با ساده‌سازی مسائل به ابتدایی‌ترین شکل و بررسی گام به گام یک الگوریتم با قلم و کاغذ، بهترین درک و شهود حاصل می‌شود.

فرصت کافی برای این رویکرد عملی در این دوره وجود دارد و هر بخش با یک تمرین برنامه‌نویسی به پایان می‌رسد که در آن خودتان الگوریتم‌ها را از ابتدا خواهید ساخت.

از اینجا به بعد، دنیا در دستان شماست! می‌توانید به سراغ حل مشکلات خودروهای خودران بروید، میلیاردها دلار در یک صندوق سرمایه‌گذاری (hedge fund) کسب کنید، یا با حل مشکل انرژی همجوشی، بشریت را نجات دهید!


سرفصل ها و درس ها

مقدمه Introduction

  • مقدمه Introduction

  • مرور کلی دوره Course overview

مشکل دزدان مسلح K-بازو (K-armed bandits) K-armed bandits

  • مقدمه‌ای بر مشکل دزدان مسلح K-بازو Introduction to k-armed bandits

  • آماده‌سازی صحنه Setting the scene

  • مفاهیم اولیه Initial concepts

  • روش‌های ارزش عمل // حریصانه (Greedy) Action value methods // Greedy

  • روش‌های ارزش عمل // اپسیلون-حریصانه (Epsilon-greedy) Action value methods // Epsilon-greedy

  • روش‌های ارزش عمل // پیاده‌سازی کارآمد Action value methods // Efficient implementation

  • دزدان مسلح غیرایستا Non-stationary bandits

  • مقادیر اولیه خوش‌بینانه Optimistic initial values

  • شروع اولین تکلیف شما: بسترهای آزمایش ۱۰-بازویی Getting started with your first assignement: the 10-armed testbed

  • تجربه عملی با دزدان مسلح K-بازو Hands on with k-armed bandits

فرایندهای تصمیم مارکوف (MDPs) Markov Decision Processes (MDPs)

  • مقدمه‌ای بر MDPs Introduction to MDPs

  • از دزدان مسلح تا MDPs // آماده‌سازی صحنه From bandits to MDPs // setting the scene

  • از دزدان مسلح تا MDPs // مرور کامل (Walk-through) دریاچه یخ‌زده From bandits to MDPs // Frozen Lake walk-through

  • از دزدان مسلح تا MDPs // مثال‌های دنیای واقعی From bandits to MDPs // Real world examples

  • اهداف، پاداش‌ها، بازده‌ها و اپیزودها Goals, rewards, returns and episodes

  • سیاست‌ها و توابع ارزش Policies and value functions

  • معادلات بلمن // معادله امید ریاضی برای v(s) Bellman equations // Expectation equation for v(s)

  • معادلات بلمن // معادله امید ریاضی برای q(s, a) Bellman equations // Expectation equation for q(s, a)

  • معادلات بلمن // معادلات بهینگی Bellman equations // Optimality equations

  • مرور کامل (Walk-through) // معادله امید ریاضی بلمن Walk-through // Bellman expectation equation

  • مرور کامل (Walk-through) // معادله بهینگی بلمن Walk-through // Bellman optimality equation

  • مرور کامل (Walk-through) // وارون ماتریس Walk-through // Matrix inversion

  • خلاصه بخش MDP MDP section summary

  • راه‌حل‌های تحلیلی برای دریاچه یخ‌زده Analytic solutions to Frozen Lake

برنامه‌ریزی پویا (DP) Dynamic Programming (DP)

  • مقدمه‌ای بر برنامه‌ریزی پویا Introduction to Dynamic Programming

  • ارزیابی سیاست // مقدمه Policy evaluation // introduction

  • ارزیابی سیاست // مرور کامل Policy evaluation // walk-through

  • بهبود سیاست // مقدمه و اثبات Policy improvement // introduction and proof

  • بهبود سیاست // مرور کامل Policy improvement // walk-through

  • تکرار سیاست Policy iteration

  • تکرار ارزش // مقدمه Value iteration // introduction

  • تکرار ارزش // مرور کامل Value iteration // walkthrough

  • تجربه عملی با برنامه‌ریزی پویا: اجاره اتومبیل جک Hands on with Dynamic Programming: Jack's Car Rental

روش‌های مونت کارلو Monte Carlo methods

  • مقدمه‌ای بر روش‌های مونت کارلو Introduction to Monte Carlo methods

  • آماده‌سازی صحنه Setting the scene

  • مثال مونت کارلو // مساحت یک ستاره پنج‌پر Monte Carlo example // area of a pentagram

  • تمرین: تخمین MC مساحت یک شکل پیچیده Exercise: MC estimation of area of a complex shape

  • پیش‌بینی Prediction

  • کنترل - شروع‌های کاوشگرانه Control - exploring starts

  • کنترل - درون‌سیاستی (on-policy) Control - on-policy

  • کنترل - برون‌سیاستی (off-policy) // مفاهیم جدید Control - off-policy // new concepts

  • کنترل - برون‌سیاستی (off-policy) // پیاده‌سازی Control - off-policy // implementation

  • معرفی محیط // بلک‌جک (Blackjack) Environment introduction // Blackjack

  • تجربه عملی با روش‌های مونت کارلو: بلک‌جک Hands on with Monte Carlo methods: Blackjack

روش‌های اختلاف زمانی (TD) Temporal Difference (TD) methods

  • مقدمه‌ای بر روش‌های TD Introduction to TD methods

  • آماده‌سازی صحنه Setting the scene

  • سارسا (Sarsa) Sarsa

  • یادگیری کیو (Q-learning) Q-learning

  • سارسای مورد انتظار Expected sarsa

  • تجربه عملی با روش‌های اختلاف زمانی: پیاده‌روی در صخره Hands on with Temporal Difference methods: Cliff Walking

روش‌های برنامه‌ریزی Planning methods

  • مقدمه‌ای بر روش‌های برنامه‌ریزی Introduction to planning methods

  • پر کردن دقیقه بی‌رحم Filling the unforgiving minute

  • داینا-کیو (Dyna-Q) // مقدمه Dyna-Q // introduction

  • داینا-کیو (Dyna-Q) // مرور کامل Dyna-Q // walk-through

  • برنامه‌ریزی با محیط‌های غیرایستا: داینا-کیو پلاس (Dyna-Q+) Planning with non-stationary environments: Dyna-Q+

  • تجربه عملی با روش‌های برنامه‌ریزی Hands on with planning methods

تبریک و بازخورد Congratulations and feedback

  • تبریک می‌گوییم! Congratulations!

نمایش نظرات

آموزش مبانی یادگیری تقویتی
جزییات دوره
10.5 hours
52
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
387
4.6 از 5
دارد
ندارد
ندارد
Tom Walker
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Tom Walker Tom Walker

مهندس هوش مصنوعی | یادگیری تقویتی، بهینه‌سازی