آموزش روش‌های یادگیری مبتنی بر نمونه (Sample-based Learning) - آخرین آپدیت

دانلود Sample-based Learning Methods

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: در این دوره، شما با چندین الگوریتم آشنا می‌شوید که می‌توانند سیاست‌های نزدیک به بهینه را بر اساس تعاملات آزمون و خطا با محیط یاد بگیرند؛ یعنی یادگیری از تجربیات خودِ عامل. یادگیری از تجربیات واقعی بسیار تاثیرگذار است زیرا به هیچ دانش قبلی از دینامیک محیط نیاز ندارد و با این حال می‌تواند به رفتاری بهینه دست یابد. ما روش‌های مونت کارلو که از نظر بصری ساده اما قدرتمند هستند و روش‌های یادگیری تفاضل زمانی (TD) از جمله Q-learning را پوشش خواهیم داد. در پایان این دوره، بررسی خواهیم کرد که چگونه می‌توانیم از هر دو دنیای برنامه‌ریزی مبتنی بر مدل (مشابه برنامه‌نویسی پویا) و به‌روزرسانی‌های تفاضل زمانی برای تسریع چشمگیر یادگیری، بهترین بهره را ببریم. در پایان این دوره شما قادر خواهید بود: - یادگیری تفاضل زمانی (TD) و مونت کارلو را به عنوان دو استراتژی برای تخمین توابع ارزش از تجربیات نمونه‌برداری شده درک کنید - اهمیت اکتشاف (Exploration) را هنگام استفاده از تجربیات نمونه‌برداری شده در مقایسه با پیمایش‌های برنامه‌نویسی پویا در یک مدل درک کنید - ارتباطات بین مونت کارلو، برنامه‌نویسی پویا و TD را درک کنید - الگوریتم TD را برای تخمین توابع ارزش پیاده‌سازی و اعمال کنید - Expected Sarsa و Q-learning (دو روش TD برای کنترل) را پیاده‌سازی و اعمال کنید - تفاوت بین کنترل On-policy و Off-policy را درک کنید - برنامه‌ریزی با تجربیات شبیه‌سازی شده (در مقابل استراتژی‌های برنامه‌ریزی کلاسیک) را درک کنید - یک رویکرد مبتنی بر مدل در یادگیری تقویت شده به نام Dyna را که از تجربیات شبیه‌سازی شده استفاده می‌کند، پیاده‌سازی کنید - یک مطالعه تجربی برای مشاهده بهبودهای کارایی نمونه‌برداری هنگام استفاده از Dyna انجام دهید

سرفصل ها و درس ها

به دوره خوش آمدید! Welcome to the Course!

  • معرفی دوره Course Introduction

  • آشنایی با مدرسین Meet your instructors!

روش‌های مونت کارلو برای پیش‌بینی و کنترل Monte Carlo Methods for Prediction & Control

  • مونت کارلو چیست؟ What is Monte Carlo?

  • استفاده از مونت کارلو برای پیش‌بینی Using Monte Carlo for Prediction

  • استفاده از مونت کارلو برای مقادیر اکشن Using Monte Carlo for Action Values

  • استفاده از روش‌های مونت کارلو برای تکرار سیاست تعمیم‌یافته Using Monte Carlo methods for generalized policy iteration

  • حل مثال بلک‌جک Solving the Blackjack Example

  • سیاست‌های اپسیلون-سافت Epsilon-soft policies

  • چرا یادگیری Off-policy اهمیت دارد؟ Why does off-policy learning matter?

  • نمونه‌برداری اهمیت (Importance Sampling) Importance Sampling

  • پیش‌بینی مونت کارلو Off-Policy Off-Policy Monte Carlo Prediction

  • اما برونسکیل: یادگیری تقویت شده دسته‌ای (Batch RL) Emma Brunskill: Batch Reinforcement Learning

  • خلاصه هفته اول Week 1 Summary

روش‌های یادگیری تفاضل زمانی برای پیش‌بینی Temporal Difference Learning Methods for Prediction

  • یادگیری تفاضل زمانی (TD) چیست؟ What is Temporal Difference (TD) learning?

  • ریچ ساتون: اهمیت یادگیری TD Rich Sutton: The Importance of TD Learning

  • مزایای یادگیری تفاضل زمانی The advantages of temporal difference learning

  • مقایسه TD و مونت کارلو Comparing TD and Monte Carlo

  • اندی بارتو و ریچ ساتون: بیشتر درباره تاریخچه RL Andy Barto and Rich Sutton: More on the History of RL

  • خلاصه هفته دوم Week 2 Summary

روش‌های یادگیری تفاضل زمانی برای کنترل Temporal Difference Learning Methods for Control

  • Sarsa: الگوریتم GPI با TD Sarsa: GPI with TD

  • Sarsa در دنیای شبکه‌ای بادگیر Sarsa in the Windy Grid World

  • Q-learning چیست؟ What is Q-learning?

  • Q-learning در دنیای شبکه‌ای بادگیر Q-learning in the Windy Grid World

  • چگونه Q-learning به صورت Off-policy است؟ How is Q-learning off-policy?

  • Expected Sarsa Expected Sarsa

  • Expected Sarsa در دنیای صخره‌ای Expected Sarsa in the Cliff World

  • عمومیت Expected Sarsa Generality of Expected Sarsa

  • خلاصه هفته سوم Week 3 Summary

برنامه‌ریزی، یادگیری و اجرا Planning, Learning & Acting

  • مدل چیست؟ What is a Model?

  • مقایسه مدل‌های نمونه و توزیعی Comparing Sample and Distribution Models

  • برنامه‌ریزی Q جدولی تصادفی Random Tabular Q-planning

  • معماری Dyna The Dyna Architecture

  • الگوریتم Dyna The Dyna Algorithm

  • Dyna و Q-learning در یک ماز ساده Dyna & Q-learning in a Simple Maze

  • اگر مدل غیردقیق باشد چه می‌شود؟ What if the model is inaccurate?

  • بررسی عمیق محیط‌های متغیر In-depth with changing environments

  • درو باگنل: رانندگی خودکار، رباتیک و RL مبتنی بر مدل Drew Bagnell: self-driving, robotics, and Model Based RL

  • خلاصه هفته چهارم Week 4 Summary

  • تبریکات! Congratulations!

نمایش نظرات

آموزش روش‌های یادگیری مبتنی بر نمونه (Sample-based Learning)
جزییات دوره
22h 16m
39
(آخرین آپدیت)
38,542
4.7 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar