این کلاس شما را با اصول یادگیری تقویتی آشنا می کند. بنابراین هیچ دانش قبلی برای گذراندن این دوره انتظار نمی رود. پس از اتمام این کلاس، دانشآموزان با اصطلاحات اصلی یادگیری تقویتی آشنا میشوند و آماده ورود به دورههای سطح متوسط و پیشرفته در آموزش تقویتی خواهند بود.
محتوای کلاس عبارتند از:
پروژه 1:
در تصویر داده شده از Grid با مقادیر مختلف پاداش، (0,0) حالت شروع و (3,2) هدف است. مقادیر داخل سلول های شبکه (ایالت ها) نشان دهنده پاداش های فوری مربوط به آن حالت ها هستند. ما مطالعه کردهایم که تابع ارزش برای مقایسه خوبی/بدی یک حالت استفاده میشود. وظیفه شما این است که:
در اینجا من هیچ خطمشی ارائه نمیدهم، بنابراین از بهترین خطمشی برای محاسبات خود استفاده کنید.
پروژه 2:
فرض کنید که میخواهید یک عامل یادگیری تقویتی (RL) را برای رانندگی ماشین آموزش دهید. جوایز این آزمایش را چگونه تعریف می کنید؟ تعریف کنید:
پروژه 3:
یادگیری تقویتی بر اساس فرضیه پاداش است. طبق این فرضیه "هر هدفی را می توان به عنوان نتیجه به حداکثر رساندن یک پاداش تجمعی رسمیت داد". 3 مثال در دنیای واقعی از وظایف هدف گرا که با این فرضیه مطابقت دارند، بیاورید. پاسخ خود را به اشتراک بگذارید.
پروژه 4:
3 مثال واقعی را بنویسید که با مشکلات اکتشاف و بهره برداری مطابقت دارد.
مشاور زیرساخت. مربی در Udemy.
نمایش نظرات