Beginning of dialog window. Escape will cancel and close the window.
End of dialog window.
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
در حال بارگزاری، لطفا صبر کنید...
توضیحات دوره:
این کلاس شما را با اصول یادگیری تقویتی آشنا می کند. بنابراین هیچ دانش قبلی برای گذراندن این دوره انتظار نمی رود. پس از اتمام این کلاس، دانشآموزان با اصطلاحات اصلی یادگیری تقویتی آشنا میشوند و آماده ورود به دورههای سطح متوسط و پیشرفته در آموزش تقویتی خواهند بود.
محتوای کلاس عبارتند از:
نمای کلی
عامل و محیط زیست
تاریخ و وضعیت
فرآیند تصمیم گیری مارکوف (MDP)
اجزای عامل RL
دسته بندی عوامل RL
یادگیری و برنامه ریزی
اکتشاف و بهره برداری
پیش بینی و کنترل
پروژه 1:
در تصویر داده شده از Grid با مقادیر مختلف پاداش، (0,0) حالت شروع و (3,2) هدف است. مقادیر داخل سلول های شبکه (ایالت ها) نشان دهنده پاداش های فوری مربوط به آن حالت ها هستند. ما مطالعه کردهایم که تابع ارزش برای مقایسه خوبی/بدی یک حالت استفاده میشود. وظیفه شما این است که:
تابع مقدار حالت (2,0) دایره شده با رنگ قرمز را محاسبه کنید
تابع مقدار حالت (0،1) دایره شده به رنگ آبی را محاسبه کنید
از (2,0) و (0,1) کدام حالت بهتر است و چرا؟
در اینجا من هیچ خطمشی ارائه نمیدهم، بنابراین از بهترین خطمشی برای محاسبات خود استفاده کنید.
پروژه 2:
فرض کنید که میخواهید یک عامل یادگیری تقویتی (RL) را برای رانندگی ماشین آموزش دهید. جوایز این آزمایش را چگونه تعریف می کنید؟ تعریف کنید:
پاداش مثبت
پاداش منفی
پروژه 3:
یادگیری تقویتی بر اساس فرضیه پاداش است. طبق این فرضیه "هر هدفی را می توان به عنوان نتیجه به حداکثر رساندن یک پاداش تجمعی رسمیت داد". 3 مثال در دنیای واقعی از وظایف هدف گرا که با این فرضیه مطابقت دارند، بیاورید. پاسخ خود را به اشتراک بگذارید.
پروژه 4:
3 مثال واقعی را بنویسید که با مشکلات اکتشاف و بهره برداری مطابقت دارد.
سرفصل ها و درس ها
درس ها
Lessons
معرفی
Introduction
بعدش چی
What's next
اجزای RL Agent
Components of RL Agent
یادگیری و برنامه ریزی
Learning and Planning
پیش بینی و کنترل
Prediction and Control
بررسی اجمالی
Overview
فرآیند تصمیم گیری مارکوف
Markov Decision Process
اکتشاف و بهره برداری
Exploration and Exploitation
تاریخ و دولت
History and State
عامل و محیط زیست
Agent and Environment
انتخاب اکشن برای اکتشاف در مقابل بهره برداری
Action Selection for Exploration vs Exploitation
نمایش نظرات