دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش روش‌های یادگیری مبتنی بر نمونه (Sample-based Learning) - آخرین آپدیت

دانلود Sample-based Learning Methods

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: در این دوره، شما با چندین الگوریتم آشنا می‌شوید که می‌توانند سیاست‌های نزدیک به بهینه را بر اساس تعاملات آزمون و خطا با محیط یاد بگیرند؛ یعنی یادگیری از تجربیات خودِ عامل. یادگیری از تجربیات واقعی بسیار تاثیرگذار است زیرا به هیچ دانش قبلی از دینامیک محیط نیاز ندارد و با این حال می‌تواند به رفتاری بهینه دست یابد. ما روش‌های مونت کارلو که از نظر بصری ساده اما قدرتمند هستند و روش‌های یادگیری تفاضل زمانی (TD) از جمله Q-learning را پوشش خواهیم داد. در پایان این دوره، بررسی خواهیم کرد که چگونه می‌توانیم از هر دو دنیای برنامه‌ریزی مبتنی بر مدل (مشابه برنامه‌نویسی پویا) و به‌روزرسانی‌های تفاضل زمانی برای تسریع چشمگیر یادگیری، بهترین بهره را ببریم. در پایان این دوره شما قادر خواهید بود: - یادگیری تفاضل زمانی (TD) و مونت کارلو را به عنوان دو استراتژی برای تخمین توابع ارزش از تجربیات نمونه‌برداری شده درک کنید - اهمیت اکتشاف (Exploration) را هنگام استفاده از تجربیات نمونه‌برداری شده در مقایسه با پیمایش‌های برنامه‌نویسی پویا در یک مدل درک کنید - ارتباطات بین مونت کارلو، برنامه‌نویسی پویا و TD را درک کنید - الگوریتم TD را برای تخمین توابع ارزش پیاده‌سازی و اعمال کنید - Expected Sarsa و Q-learning (دو روش TD برای کنترل) را پیاده‌سازی و اعمال کنید - تفاوت بین کنترل On-policy و Off-policy را درک کنید - برنامه‌ریزی با تجربیات شبیه‌سازی شده (در مقابل استراتژی‌های برنامه‌ریزی کلاسیک) را درک کنید - یک رویکرد مبتنی بر مدل در یادگیری تقویت شده به نام Dyna را که از تجربیات شبیه‌سازی شده استفاده می‌کند، پیاده‌سازی کنید - یک مطالعه تجربی برای مشاهده بهبودهای کارایی نمونه‌برداری هنگام استفاده از Dyna انجام دهید

سرفصل ها و درس ها

به دوره خوش آمدید! Welcome to the Course!

معرفی دوره Course Introduction
آشنایی با مدرسین Meet your instructors!

روش‌های مونت کارلو برای پیش‌بینی و کنترل Monte Carlo Methods for Prediction & Control

مونت کارلو چیست؟ What is Monte Carlo?
استفاده از مونت کارلو برای پیش‌بینی Using Monte Carlo for Prediction
استفاده از مونت کارلو برای مقادیر اکشن Using Monte Carlo for Action Values
استفاده از روش‌های مونت کارلو برای تکرار سیاست تعمیم‌یافته Using Monte Carlo methods for generalized policy iteration
حل مثال بلک‌جک Solving the Blackjack Example
سیاست‌های اپسیلون-سافت Epsilon-soft policies
چرا یادگیری Off-policy اهمیت دارد؟ Why does off-policy learning matter?
نمونه‌برداری اهمیت (Importance Sampling) Importance Sampling
پیش‌بینی مونت کارلو Off-Policy Off-Policy Monte Carlo Prediction
اما برونسکیل: یادگیری تقویت شده دسته‌ای (Batch RL) Emma Brunskill: Batch Reinforcement Learning
خلاصه هفته اول Week 1 Summary

روش‌های یادگیری تفاضل زمانی برای پیش‌بینی Temporal Difference Learning Methods for Prediction

یادگیری تفاضل زمانی (TD) چیست؟ What is Temporal Difference (TD) learning?
ریچ ساتون: اهمیت یادگیری TD Rich Sutton: The Importance of TD Learning
مزایای یادگیری تفاضل زمانی The advantages of temporal difference learning
مقایسه TD و مونت کارلو Comparing TD and Monte Carlo
اندی بارتو و ریچ ساتون: بیشتر درباره تاریخچه RL Andy Barto and Rich Sutton: More on the History of RL
خلاصه هفته دوم Week 2 Summary

روش‌های یادگیری تفاضل زمانی برای کنترل Temporal Difference Learning Methods for Control

Sarsa: الگوریتم GPI با TD Sarsa: GPI with TD
Sarsa در دنیای شبکه‌ای بادگیر Sarsa in the Windy Grid World
Q-learning چیست؟ What is Q-learning?
Q-learning در دنیای شبکه‌ای بادگیر Q-learning in the Windy Grid World
چگونه Q-learning به صورت Off-policy است؟ How is Q-learning off-policy?
Expected Sarsa Expected Sarsa
Expected Sarsa در دنیای صخره‌ای Expected Sarsa in the Cliff World
عمومیت Expected Sarsa Generality of Expected Sarsa
خلاصه هفته سوم Week 3 Summary

برنامه‌ریزی، یادگیری و اجرا Planning, Learning & Acting

مدل چیست؟ What is a Model?
مقایسه مدل‌های نمونه و توزیعی Comparing Sample and Distribution Models
برنامه‌ریزی Q جدولی تصادفی Random Tabular Q-planning
معماری Dyna The Dyna Architecture
الگوریتم Dyna The Dyna Algorithm
Dyna و Q-learning در یک ماز ساده Dyna & Q-learning in a Simple Maze
اگر مدل غیردقیق باشد چه می‌شود؟ What if the model is inaccurate?
بررسی عمیق محیط‌های متغیر In-depth with changing environments
درو باگنل: رانندگی خودکار، رباتیک و RL مبتنی بر مدل Drew Bagnell: self-driving, robotics, and Model Based RL
خلاصه هفته چهارم Week 4 Summary
تبریکات! Congratulations!

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش روش‌های یادگیری مبتنی بر نمونه (Sample-based Learning)

جزییات دوره

زمان دوره: 22h 16m

تعداد ویدیو ها: 39

شرکت: Coursera (کورسرا)

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع : 38,542

امتیاز مرجع: 4.7 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Martha White Adam White

لینک کوتاه این دوره

https://donyad.com/d/85aabd

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

آموزش روش‌های یادگیری مبتنی بر نمونه (Sample-based Learning) - آخرین آپدیت

دانلود Sample-based Learning Methods

به دوره خوش آمدید! Welcome to the Course!

معرفی دوره Course Introduction

آشنایی با مدرسین Meet your instructors!

روش‌های مونت کارلو برای پیش‌بینی و کنترل Monte Carlo Methods for Prediction & Control

مونت کارلو چیست؟ What is Monte Carlo?

استفاده از مونت کارلو برای پیش‌بینی Using Monte Carlo for Prediction

استفاده از مونت کارلو برای مقادیر اکشن Using Monte Carlo for Action Values

استفاده از روش‌های مونت کارلو برای تکرار سیاست تعمیم‌یافته Using Monte Carlo methods for generalized policy iteration

حل مثال بلک‌جک Solving the Blackjack Example

سیاست‌های اپسیلون-سافت Epsilon-soft policies

چرا یادگیری Off-policy اهمیت دارد؟ Why does off-policy learning matter?

نمونه‌برداری اهمیت (Importance Sampling) Importance Sampling

پیش‌بینی مونت کارلو Off-Policy Off-Policy Monte Carlo Prediction

اما برونسکیل: یادگیری تقویت شده دسته‌ای (Batch RL) Emma Brunskill: Batch Reinforcement Learning

خلاصه هفته اول Week 1 Summary

روش‌های یادگیری تفاضل زمانی برای پیش‌بینی Temporal Difference Learning Methods for Prediction

یادگیری تفاضل زمانی (TD) چیست؟ What is Temporal Difference (TD) learning?

ریچ ساتون: اهمیت یادگیری TD Rich Sutton: The Importance of TD Learning

مزایای یادگیری تفاضل زمانی The advantages of temporal difference learning

مقایسه TD و مونت کارلو Comparing TD and Monte Carlo

اندی بارتو و ریچ ساتون: بیشتر درباره تاریخچه RL Andy Barto and Rich Sutton: More on the History of RL

خلاصه هفته دوم Week 2 Summary

روش‌های یادگیری تفاضل زمانی برای کنترل Temporal Difference Learning Methods for Control

Sarsa: الگوریتم GPI با TD Sarsa: GPI with TD

Sarsa در دنیای شبکه‌ای بادگیر Sarsa in the Windy Grid World

Q-learning چیست؟ What is Q-learning?

Q-learning در دنیای شبکه‌ای بادگیر Q-learning in the Windy Grid World

چگونه Q-learning به صورت Off-policy است؟ How is Q-learning off-policy?

Expected Sarsa Expected Sarsa

Expected Sarsa در دنیای صخره‌ای Expected Sarsa in the Cliff World

عمومیت Expected Sarsa Generality of Expected Sarsa

خلاصه هفته سوم Week 3 Summary

برنامه‌ریزی، یادگیری و اجرا Planning, Learning & Acting

مدل چیست؟ What is a Model?

مقایسه مدل‌های نمونه و توزیعی Comparing Sample and Distribution Models

برنامه‌ریزی Q جدولی تصادفی Random Tabular Q-planning

معماری Dyna The Dyna Architecture

الگوریتم Dyna The Dyna Algorithm

Dyna و Q-learning در یک ماز ساده Dyna & Q-learning in a Simple Maze

اگر مدل غیردقیق باشد چه می‌شود؟ What if the model is inaccurate?

بررسی عمیق محیط‌های متغیر In-depth with changing environments

درو باگنل: رانندگی خودکار، رباتیک و RL مبتنی بر مدل Drew Bagnell: self-driving, robotics, and Model Based RL

خلاصه هفته چهارم Week 4 Summary

تبریکات! Congratulations!

نمایش نظرات

https://donyad.com/d/85aabd