آموزش سیستم جامع یادگیری تقویت‌شده (پروژه نهایی) - آخرین آپدیت

دانلود A Complete Reinforcement Learning System (Capstone)

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: در این دوره نهایی، شما دانش خود را از دوره‌های اول، دوم و سوم به کار خواهید گرفت تا یک راهکار کامل یادگیری تقویت‌شده (RL) برای حل یک مسئله پیاده‌سازی کنید. این پروژه نهایی به شما اجازه می‌دهد تا ببینید هر یک از اجزا شامل فرمول‌بندی مسئله، انتخاب الگوریتم، انتخاب پارامتر و طراحی نمایش (Representation) چگونه در یک راهکار جامع با هم ترکیب می‌شوند و هنگام استقرار RL در دنیای واقعی، چگونه انتخاب‌های مناسب را انجام دهید. در این پروژه، شما باید هم محیط شبیه‌ساز مسئله و هم یک عامل کنترل‌کننده با تخمین تابع شبکه عصبی را پیاده‌سازی کنید. علاوه بر این، یک مطالعه علمی روی سیستم یادگیری خود انجام خواهید داد تا توانایی ارزیابی استحکام عوامل RL را توسعه دهید. برای استفاده از RL در دنیای واقعی، حیاتی است که: (الف) مسئله را به درستی به عنوان یک MDP فرمول‌بندی کنید، (ب) الگوریتم‌های مناسب را انتخاب کنید، (ج) شناسایی کنید که کدام انتخاب‌ها در پیاده‌سازی شما تأثیر زیادی بر عملکرد خواهد داشت و (د) رفتار مورد انتظار الگوریتم‌های خود را اعتبارسنجی کنید. این دوره برای هر کسی که قصد دارد از RL برای حل مسائل واقعی استفاده کند، بسیار ارزشمند است. برای موفقیت در این دوره، باید دوره‌های ۱، ۲ و ۳ این تخصص یا معادل آن‌ها را گذرانده باشید. در پایان این دوره، شما قادر خواهید بود: یک راهکار کامل RL برای یک مسئله را، از مرحله فرمول‌بندی مسئله، انتخاب الگوریتم مناسب و پیاده‌سازی تا مطالعه تجربی روی اثربخشی راهکار، به طور کامل اجرا کنید.

سرفصل ها و درس ها

خوش‌آمدگویی به دوره نهایی پروژه جامع! Welcome to the Final Capstone Course!

  • معرفی دوره چهارم Course 4 Introduction

  • آشنایی با مدرسین! Meet your instructors!

مرحله اول: فرمول‌بندی مسئله به عنوان MDP Milestone 1: Formalize Word Problem as MDP

  • جلسه اولیه پروژه با مارتا: فرمول‌بندی مسئله Initial Project Meeting with Martha: Formalizing the Problem

  • اندی بارتو درباره ردپاهای صلاحیت (Eligibility Traces) و علت نام‌گذاری آن‌ها Andy Barto on What are Eligibility Traces and Why are they so named?

  • مرور مفاهیم: فرآیندهای تصمیم‌گیری مارکوف Let's Review: Markov Decision Processes

  • مرور مفاهیم: مثال‌هایی از تکالیف اپیزودیک و مستمر Let's Review: Examples of Episodic and Continuing Tasks

مرحله دوم: انتخاب الگوریتم مناسب Milestone 2: Choosing The Right Algorithm

  • جلسه با نیکو: انتخاب الگوریتم یادگیری Meeting with Niko: Choosing the Learning Algorithm

  • مرور مفاهیم: Sarsa مورد انتظار (Expected Sarsa) Let's Review: Expected Sarsa

  • مرور مفاهیم: یادگیری Q چیست؟ Let's Review: What is Q-learning?

  • مرور مفاهیم: پاداش متوسط؛ روشی جدید برای فرمول‌بندی مسائل کنترل Let's Review: Average Reward- A New Way of Formulating Control Problems

  • مرور مفاهیم: الگوریتم Actor-Critic Let's Review: Actor-Critic Algorithm

  • سابا سپسوار در مورد چشم‌انداز مسئله Csaba Szepesvari on Problem Landscape

  • اندی و ریچ: توصیه‌هایی برای دانشجویان Andy and Rich: Advice for Students

مرحله سوم: شناسایی پارامترهای کلیدی عملکرد Milestone 3: Identify Key Performance Parameters

  • جلسه معماری عامل با مارتا: بررسی کلی انتخاب‌های طراحی Agent Architecture Meeting with Martha: Overview of Design Choices

  • مرور مفاهیم: تقریب غیرخطی با شبکه‌های عصبی Let's Review: Non-linear Approximation with Neural Networks

  • درو بگنیل در مورد شناسایی سیستم و کنترل بهینه Drew Bagnell on System ID + Optimal Control

  • سوزان مورفی در مورد RL در سلامت همراه (Mobile Health) Susan Murphy on RL in Mobile Health

مرحله چهارم: پیاده‌سازی عامل (Agent) شما Milestone 4: Implement Your Agent

  • جلسه با آدام: دقیق کردن جزئیات عامل Meeting with Adam: Getting the Agent Details Right

  • مرور مفاهیم: استراتژی‌های بهینه‌سازی برای شبکه‌های عصبی Let's Review: Optimization Strategies for NNs

  • مرور مفاهیم: Expected Sarsa با تقریب تابع Let's Review: Expected Sarsa with Function Approximation

  • مرور مفاهیم: Dyna و Q-learning در یک هزارتوی ساده Let's Review: Dyna & Q-learning in a Simple Maze

  • جلسه با مارتا: بررسی عمیق بازپخش تجربه (Experience Replay) Meeting with Martha: In-depth on Experience Replay

  • مارتین ریدمیلر در مورد چارچوب «جمع‌آوری و استنباط» برای RL با بهره‌وری داده Martin Riedmiller on The 'Collect and Infer' framework for data-efficient RL

مرحله پنجم: ارسال مطالعه پارامتری شما! Milestone 5: Submit Your Parameter Study!

  • جلسه با آدام: مطالعات پارامتری در RL Meeting with Adam: Parameter Studies in RL

  • مرور مفاهیم: مقایسه TD و مونت کارلو Let's Review: Comparing TD and Monte Carlo

  • جوئل پینو در مورد یادگیری تقویت‌شده کاربردی Joelle Pineau about RL that Matters

  • جلسه با مارتا: بحث در مورد نتایج شما Meeting with Martha: Discussing Your Results

  • جمع‌بندی دوره Course Wrap-up

  • جمع‌بندی تخصص Specialization Wrap-up

نمایش نظرات

آموزش سیستم جامع یادگیری تقویت‌شده (پروژه نهایی)
جزییات دوره
15h 45m
29
(آخرین آپدیت)
25,632
4.8 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar