آموزش یادگیری تقویتی شماره 1: مقدمه ای بر یادگیری تقویتی | هوش مصنوعی

Reinforcement Learning #1 : Introduction to Reinforcement Learning | Artificial Intelligence

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:

این کلاس شما را با اصول یادگیری تقویتی آشنا می کند. بنابراین هیچ دانش قبلی برای گذراندن این دوره انتظار نمی رود. پس از اتمام این کلاس، دانش‌آموزان با اصطلاحات اصلی یادگیری تقویتی آشنا می‌شوند و آماده ورود به دوره‌های سطح متوسط ​​و پیشرفته در آموزش تقویتی خواهند بود.

محتوای کلاس عبارتند از:

  • نمای کلی
  • عامل و محیط زیست
  • تاریخ و وضعیت
  • فرآیند تصمیم گیری مارکوف (MDP)
  • اجزای عامل RL
  • دسته بندی عوامل RL
  • یادگیری و برنامه ریزی
  • اکتشاف و بهره برداری
  • پیش بینی و کنترل

پروژه 1:

در تصویر داده شده از Grid با مقادیر مختلف پاداش، (0,0) حالت شروع و (3,2) هدف است. مقادیر داخل سلول های شبکه (ایالت ها) نشان دهنده پاداش های فوری مربوط به آن حالت ها هستند. ما مطالعه کرده‌ایم که تابع ارزش برای مقایسه خوبی/بدی یک حالت استفاده می‌شود. وظیفه شما این است که:

  1. تابع مقدار حالت (2,0) دایره شده با رنگ قرمز را محاسبه کنید
  2. تابع مقدار حالت (0،1) دایره شده به رنگ آبی را محاسبه کنید
  3. از (2,0) و (0,1) کدام حالت بهتر است و چرا؟

در اینجا من هیچ خط‌مشی ارائه نمی‌دهم، بنابراین از بهترین خط‌مشی برای محاسبات خود استفاده کنید.

پروژه 2:

فرض کنید که می‌خواهید یک عامل یادگیری تقویتی (RL) را برای رانندگی ماشین آموزش دهید. جوایز این آزمایش را چگونه تعریف می کنید؟ تعریف کنید:

  1. پاداش مثبت
  2. پاداش منفی

پروژه 3:

یادگیری تقویتی بر اساس فرضیه پاداش است. طبق این فرضیه "هر هدفی را می توان به عنوان نتیجه به حداکثر رساندن یک پاداش تجمعی رسمیت داد". 3 مثال در دنیای واقعی از وظایف هدف گرا که با این فرضیه مطابقت دارند، بیاورید. پاسخ خود را به اشتراک بگذارید.

پروژه 4:

3 مثال واقعی را بنویسید که با مشکلات اکتشاف و بهره برداری مطابقت دارد.


سرفصل ها و درس ها

درس ها Lessons

  • معرفی Introduction

  • بعدش چی What's next

  • اجزای RL Agent Components of RL Agent

  • یادگیری و برنامه ریزی Learning and Planning

  • پیش بینی و کنترل Prediction and Control

  • بررسی اجمالی Overview

  • فرآیند تصمیم گیری مارکوف Markov Decision Process

  • اکتشاف و بهره برداری Exploration and Exploitation

  • تاریخ و دولت History and State

  • عامل و محیط زیست Agent and Environment

  • انتخاب اکشن برای اکتشاف در مقابل بهره برداری Action Selection for Exploration vs Exploitation

  • دسته بندی عوامل RL Categorising RL Agents

نمایش نظرات

آموزش یادگیری تقویتی شماره 1: مقدمه ای بر یادگیری تقویتی | هوش مصنوعی
جزییات دوره
55m
12
Skillshare (اسکیل شیر) Skillshare (اسکیل شیر)
(آخرین آپدیت)
92
4 از 5
ندارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Abhishek Kumar Abhishek Kumar

مشاور زیرساخت. مربی در Udemy.