لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش روشهای یادگیری مبتنی بر نمونه (Sample-based Learning)
- آخرین آپدیت
دانلود Sample-based Learning Methods
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
در این دوره، شما با چندین الگوریتم آشنا میشوید که میتوانند سیاستهای نزدیک به بهینه را بر اساس تعاملات آزمون و خطا با محیط یاد بگیرند؛ یعنی یادگیری از تجربیات خودِ عامل. یادگیری از تجربیات واقعی بسیار تاثیرگذار است زیرا به هیچ دانش قبلی از دینامیک محیط نیاز ندارد و با این حال میتواند به رفتاری بهینه دست یابد. ما روشهای مونت کارلو که از نظر بصری ساده اما قدرتمند هستند و روشهای یادگیری تفاضل زمانی (TD) از جمله Q-learning را پوشش خواهیم داد. در پایان این دوره، بررسی خواهیم کرد که چگونه میتوانیم از هر دو دنیای برنامهریزی مبتنی بر مدل (مشابه برنامهنویسی پویا) و بهروزرسانیهای تفاضل زمانی برای تسریع چشمگیر یادگیری، بهترین بهره را ببریم.
در پایان این دوره شما قادر خواهید بود:
- یادگیری تفاضل زمانی (TD) و مونت کارلو را به عنوان دو استراتژی برای تخمین توابع ارزش از تجربیات نمونهبرداری شده درک کنید
- اهمیت اکتشاف (Exploration) را هنگام استفاده از تجربیات نمونهبرداری شده در مقایسه با پیمایشهای برنامهنویسی پویا در یک مدل درک کنید
- ارتباطات بین مونت کارلو، برنامهنویسی پویا و TD را درک کنید
- الگوریتم TD را برای تخمین توابع ارزش پیادهسازی و اعمال کنید
- Expected Sarsa و Q-learning (دو روش TD برای کنترل) را پیادهسازی و اعمال کنید
- تفاوت بین کنترل On-policy و Off-policy را درک کنید
- برنامهریزی با تجربیات شبیهسازی شده (در مقابل استراتژیهای برنامهریزی کلاسیک) را درک کنید
- یک رویکرد مبتنی بر مدل در یادگیری تقویت شده به نام Dyna را که از تجربیات شبیهسازی شده استفاده میکند، پیادهسازی کنید
- یک مطالعه تجربی برای مشاهده بهبودهای کارایی نمونهبرداری هنگام استفاده از Dyna انجام دهید
سرفصل ها و درس ها
به دوره خوش آمدید!
Welcome to the Course!
معرفی دوره
Course Introduction
آشنایی با مدرسین
Meet your instructors!
روشهای مونت کارلو برای پیشبینی و کنترل
Monte Carlo Methods for Prediction & Control
مونت کارلو چیست؟
What is Monte Carlo?
استفاده از مونت کارلو برای پیشبینی
Using Monte Carlo for Prediction
استفاده از مونت کارلو برای مقادیر اکشن
Using Monte Carlo for Action Values
استفاده از روشهای مونت کارلو برای تکرار سیاست تعمیمیافته
Using Monte Carlo methods for generalized policy iteration
حل مثال بلکجک
Solving the Blackjack Example
سیاستهای اپسیلون-سافت
Epsilon-soft policies
چرا یادگیری Off-policy اهمیت دارد؟
Why does off-policy learning matter?
نمایش نظرات