آموزش تصمیم‌گیری و یادگیری تقویت‌پذیر - آخرین آپدیت

دانلود Decision Making and Reinforcement Learning

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: این دوره مقدمه‌ای بر تصمیم‌گیری متوالی و یادگیری تقویت‌پذیر (Reinforcement Learning) است. ما کار را با بحث درباره نظریه مطلوبیت آغاز می‌کنیم تا یاد بگیریم چگونه می‌توان ترجیحات را برای تصمیم‌گیری بازنمایی و مدل‌سازی کرد. ابتدا مسائل تصمیم‌گیری ساده را به عنوان مسائل چند بازویی (Multi-armed Bandit) مدل‌سازی کرده و چندین روش برای ارزیابی بازخورد را بررسی می‌کنیم. سپس مسائل تصمیم‌گیری را به عنوان فرآیندهای تصمیم مارکوف محدود (MDPs) مدل‌سازی کرده و راه‌حل‌های آن‌ها را از طریق الگوریتم‌های برنامه‌نویسی پویا مورد بحث قرار می‌دهیم. ما به مفهوم مشاهده‌پذیری جزئی در مسائل واقعی، که توسط POMDPs مدل‌سازی می‌شود و سپس توسط روش‌های برنامه‌ریزی آنلاین حل می‌شود، می‌پردازیم. در نهایت، مسئله یادگیری تقویت‌پذیر را معرفی کرده و دو پارادایم اصلی یعنی روش‌های مونت کارلو و یادگیری تفاوت زمانی را بررسی می‌کنیم. دوره را با این نکته به پایان می‌بریم که چگونه این دو پارادایم در طیف روش‌های تفاوت زمانی n-step قرار می‌گیرند. تأکید بر الگوریتم‌ها و مثال‌های کاربردی بخش کلیدی این دوره خواهد بود.

سرفصل ها و درس ها

تصمیم‌گیری و نظریه مطلوبیت Decision Making and Utility Theory

  • مقدمه‌ای بر تصمیم‌گیری و یادگیری تقویت‌پذیر Introduction to Decision Making and Reinforcement Learning

  • جزئیات و ساختار دوره Course Logistics

  • 1.1 عامل‌های منطقی و نظریه مطلوبیت 1.1 Rational Agents and Utility Theory

  • 1.2 ترجیحات و اصول نظریه مطلوبیت 1.2 Preferences and Axioms of Utility Theory

  • 1.3 مطلوبیت‌های نامطمئن و چند ویژگی 1.3 Uncertain and Multi-Attribute Utilities

  • 1.4 ارزش اطلاعات کامل 1.4 Value of Perfect Information

مسائل باندیت (Bandit Problems) Bandit Problems

  • 2.1 باندیت‌های چند بازویی و مقادیر اکشن 2.1 Multi-Armed Bandits and Action Values

  • 2.2 انتخاب اکشن ε-Greedy 2.2 Ɛ-Greedy Action Selection

  • 2.3 کران اعتماد بالا (UCB) 2.3 Upper Confidence Bound

فرآیندهای تصمیم مارکوف Markov Decision Processes

  • 3.1 چارچوب فرآیند تصمیم مارکوف 3.1 Markov Decision Process Framework

  • 3.2 مثال دنیای شبکه‌ای (Gridworld) 3.2 Gridworld Example

  • 3.3 پاداش‌ها، مطلوبیت‌ها و تخفیف‌دهی 3.3 Rewards, Utilities, and Discounting

  • 3.4 سیاست‌ها و توابع ارزش 3.4 Policies and Value Functions

  • 3.5 مثال: دنیای شبکه‌ای کوچک 3.5 Example: Mini-Gridworld

  • 3.6 معادلات بهینگی بلمن 3.6 Bellman Optimality Equations

برنامه‌نویسی پویا Dynamic Programming

  • 4.1 مقادیر محدود به زمان 4.1 Time-Limited Values

  • 4.2 تکرار ارزش (Value Iteration) 4.2 Value Iteration

  • 4.3 پیاده‌سازی تکرار ارزش 4.3 Value Iteration Implementation

  • 4.4 تکرار سیاست (Policy Iteration) 4.4 Policy Iteration

  • 4.5 مثال: دنیای شبکه‌ای کوچک 4.5 Example: Mini-Gridworld

  • 4.6 پیچیدگی الگوریتم 4.6 Algorithm Complexity

فرآیندهای تصمیم مارکوف با مشاهده‌پذیری جزئی Partially Observable Markov Decision Processes

  • 5.1 مشاهده‌پذیری جزئی و POMDP 5.1 Partial Observability and POMDP

  • 5.2 حالت‌های باور (Belief States) 5.2 Belief States

  • 5.3 مدل انتقال باور 5.3 Belief Transition Model

  • 5.4 سیاست‌ها و توابع ارزش 5.4 Policies and Value Functions

  • 5.5 مثال: دنیای شبکه‌ای کوچک 5.5 Example: Mini-Gridworld

روش‌های مونت کارلو Monte Carlo Methods

  • 6.1 روش‌های مونت کارلو 6.1 Monte Carlo Methods

  • 6.2 پیش‌بینی MC اولین بازدید 6.2 First-Visit MC Prediction

  • 6.3 مقادیر حالت-اکشن 6.3 State-Action Values

  • 6.4 کنترل MC درون-سیاستی ε-Greedy 6.4 Ɛ−Greedy On-Policy MC Control

  • 6.5 کنترل MC درون-سیاستی و برون-سیاستی 6.5 On and Off-Policy MC Control

  • 6.6 مثال: دنیای شبکه‌ای کوچک 6.6 Example: Mini-Gridworld

یادگیری تفاوت زمانی Temporal-Difference Learning

  • 7.1 یادگیری تفاوت زمانی 7.1 Temporal Difference Learning

  • 7.2 پیش‌بینی تفاوت زمانی 7.2 Temporal Difference Prediction

  • 7.3 به‌روزرسانی دسته‌ای (Batch Updating) 7.3 Batch Updating

  • 7.4 یادگیری TD برای کنترل 7.4 TD Learning for Control

  • 7.5 مقایسه SARSA و Q-Learning 7.5 SARSA vs Q-Learning

تعمیم‌پذیری در یادگیری تقویت‌پذیر Reinforcement Learning - Generalization

  • 8.1 پیش‌بینی تفاوت زمانی n-step 8.1 𝑛-step Temporal Difference Prediction

  • 8.2 روش SARSA n-step 8.2 𝑛-step SARSA

  • 8.3 روش‌های مدل‌محور 8.3 Model-Based Methods

  • 8.4 تقریب تابع 8.4 Function Approximation

نمایش نظرات

آموزش تصمیم‌گیری و یادگیری تقویت‌پذیر
جزییات دوره
47h 9m
41
(آخرین آپدیت)
4,640
4.3 از 5
دارد
دارد
دارد
Chris Croft
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Chris Croft Chris Croft

مربی مدیریت، سخنران، نویسنده