لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش سیستم جامع یادگیری تقویتشده (پروژه نهایی)
- آخرین آپدیت
دانلود A Complete Reinforcement Learning System (Capstone)
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
در این دوره نهایی، شما دانش خود را از دورههای اول، دوم و سوم به کار خواهید گرفت تا یک راهکار کامل یادگیری تقویتشده (RL) برای حل یک مسئله پیادهسازی کنید. این پروژه نهایی به شما اجازه میدهد تا ببینید هر یک از اجزا شامل فرمولبندی مسئله، انتخاب الگوریتم، انتخاب پارامتر و طراحی نمایش (Representation) چگونه در یک راهکار جامع با هم ترکیب میشوند و هنگام استقرار RL در دنیای واقعی، چگونه انتخابهای مناسب را انجام دهید. در این پروژه، شما باید هم محیط شبیهساز مسئله و هم یک عامل کنترلکننده با تخمین تابع شبکه عصبی را پیادهسازی کنید. علاوه بر این، یک مطالعه علمی روی سیستم یادگیری خود انجام خواهید داد تا توانایی ارزیابی استحکام عوامل RL را توسعه دهید. برای استفاده از RL در دنیای واقعی، حیاتی است که: (الف) مسئله را به درستی به عنوان یک MDP فرمولبندی کنید، (ب) الگوریتمهای مناسب را انتخاب کنید، (ج) شناسایی کنید که کدام انتخابها در پیادهسازی شما تأثیر زیادی بر عملکرد خواهد داشت و (د) رفتار مورد انتظار الگوریتمهای خود را اعتبارسنجی کنید. این دوره برای هر کسی که قصد دارد از RL برای حل مسائل واقعی استفاده کند، بسیار ارزشمند است.
برای موفقیت در این دوره، باید دورههای ۱، ۲ و ۳ این تخصص یا معادل آنها را گذرانده باشید.
در پایان این دوره، شما قادر خواهید بود:
یک راهکار کامل RL برای یک مسئله را، از مرحله فرمولبندی مسئله، انتخاب الگوریتم مناسب و پیادهسازی تا مطالعه تجربی روی اثربخشی راهکار، به طور کامل اجرا کنید.
سرفصل ها و درس ها
خوشآمدگویی به دوره نهایی پروژه جامع!
Welcome to the Final Capstone Course!
معرفی دوره چهارم
Course 4 Introduction
آشنایی با مدرسین!
Meet your instructors!
مرحله اول: فرمولبندی مسئله به عنوان MDP
Milestone 1: Formalize Word Problem as MDP
جلسه اولیه پروژه با مارتا: فرمولبندی مسئله
Initial Project Meeting with Martha: Formalizing the Problem
اندی بارتو درباره ردپاهای صلاحیت (Eligibility Traces) و علت نامگذاری آنها
Andy Barto on What are Eligibility Traces and Why are they so named?
مرور مفاهیم: فرآیندهای تصمیمگیری مارکوف
Let's Review: Markov Decision Processes
مرور مفاهیم: مثالهایی از تکالیف اپیزودیک و مستمر
Let's Review: Examples of Episodic and Continuing Tasks
مرحله دوم: انتخاب الگوریتم مناسب
Milestone 2: Choosing The Right Algorithm
جلسه با نیکو: انتخاب الگوریتم یادگیری
Meeting with Niko: Choosing the Learning Algorithm
مرور مفاهیم: Sarsa مورد انتظار (Expected Sarsa)
Let's Review: Expected Sarsa
مرور مفاهیم: یادگیری Q چیست؟
Let's Review: What is Q-learning?
مرور مفاهیم: پاداش متوسط؛ روشی جدید برای فرمولبندی مسائل کنترل
Let's Review: Average Reward- A New Way of Formulating Control Problems
مرور مفاهیم: الگوریتم Actor-Critic
Let's Review: Actor-Critic Algorithm
سابا سپسوار در مورد چشمانداز مسئله
Csaba Szepesvari on Problem Landscape
اندی و ریچ: توصیههایی برای دانشجویان
Andy and Rich: Advice for Students
جلسه معماری عامل با مارتا: بررسی کلی انتخابهای طراحی
Agent Architecture Meeting with Martha: Overview of Design Choices
مرور مفاهیم: تقریب غیرخطی با شبکههای عصبی
Let's Review: Non-linear Approximation with Neural Networks
درو بگنیل در مورد شناسایی سیستم و کنترل بهینه
Drew Bagnell on System ID + Optimal Control
سوزان مورفی در مورد RL در سلامت همراه (Mobile Health)
Susan Murphy on RL in Mobile Health
مرحله چهارم: پیادهسازی عامل (Agent) شما
Milestone 4: Implement Your Agent
جلسه با آدام: دقیق کردن جزئیات عامل
Meeting with Adam: Getting the Agent Details Right
مرور مفاهیم: استراتژیهای بهینهسازی برای شبکههای عصبی
Let's Review: Optimization Strategies for NNs
مرور مفاهیم: Expected Sarsa با تقریب تابع
Let's Review: Expected Sarsa with Function Approximation
مرور مفاهیم: Dyna و Q-learning در یک هزارتوی ساده
Let's Review: Dyna & Q-learning in a Simple Maze
جلسه با مارتا: بررسی عمیق بازپخش تجربه (Experience Replay)
Meeting with Martha: In-depth on Experience Replay
مارتین ریدمیلر در مورد چارچوب «جمعآوری و استنباط» برای RL با بهرهوری داده
Martin Riedmiller on The 'Collect and Infer' framework for data-efficient RL
نمایش نظرات