دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش تصمیم‌گیری و یادگیری تقویت‌پذیر - آخرین آپدیت

دانلود Decision Making and Reinforcement Learning

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: این دوره مقدمه‌ای بر تصمیم‌گیری متوالی و یادگیری تقویت‌پذیر (Reinforcement Learning) است. ما کار را با بحث درباره نظریه مطلوبیت آغاز می‌کنیم تا یاد بگیریم چگونه می‌توان ترجیحات را برای تصمیم‌گیری بازنمایی و مدل‌سازی کرد. ابتدا مسائل تصمیم‌گیری ساده را به عنوان مسائل چند بازویی (Multi-armed Bandit) مدل‌سازی کرده و چندین روش برای ارزیابی بازخورد را بررسی می‌کنیم. سپس مسائل تصمیم‌گیری را به عنوان فرآیندهای تصمیم مارکوف محدود (MDPs) مدل‌سازی کرده و راه‌حل‌های آن‌ها را از طریق الگوریتم‌های برنامه‌نویسی پویا مورد بحث قرار می‌دهیم. ما به مفهوم مشاهده‌پذیری جزئی در مسائل واقعی، که توسط POMDPs مدل‌سازی می‌شود و سپس توسط روش‌های برنامه‌ریزی آنلاین حل می‌شود، می‌پردازیم. در نهایت، مسئله یادگیری تقویت‌پذیر را معرفی کرده و دو پارادایم اصلی یعنی روش‌های مونت کارلو و یادگیری تفاوت زمانی را بررسی می‌کنیم. دوره را با این نکته به پایان می‌بریم که چگونه این دو پارادایم در طیف روش‌های تفاوت زمانی n-step قرار می‌گیرند. تأکید بر الگوریتم‌ها و مثال‌های کاربردی بخش کلیدی این دوره خواهد بود.

سرفصل ها و درس ها

تصمیم‌گیری و نظریه مطلوبیت Decision Making and Utility Theory

مقدمه‌ای بر تصمیم‌گیری و یادگیری تقویت‌پذیر Introduction to Decision Making and Reinforcement Learning
جزئیات و ساختار دوره Course Logistics
1.1 عامل‌های منطقی و نظریه مطلوبیت 1.1 Rational Agents and Utility Theory
1.2 ترجیحات و اصول نظریه مطلوبیت 1.2 Preferences and Axioms of Utility Theory
1.3 مطلوبیت‌های نامطمئن و چند ویژگی 1.3 Uncertain and Multi-Attribute Utilities
1.4 ارزش اطلاعات کامل 1.4 Value of Perfect Information

مسائل باندیت (Bandit Problems) Bandit Problems

2.1 باندیت‌های چند بازویی و مقادیر اکشن 2.1 Multi-Armed Bandits and Action Values
2.2 انتخاب اکشن ε-Greedy 2.2 Ɛ-Greedy Action Selection
2.3 کران اعتماد بالا (UCB) 2.3 Upper Confidence Bound

فرآیندهای تصمیم مارکوف Markov Decision Processes

3.1 چارچوب فرآیند تصمیم مارکوف 3.1 Markov Decision Process Framework
3.2 مثال دنیای شبکه‌ای (Gridworld) 3.2 Gridworld Example
3.3 پاداش‌ها، مطلوبیت‌ها و تخفیف‌دهی 3.3 Rewards, Utilities, and Discounting
3.4 سیاست‌ها و توابع ارزش 3.4 Policies and Value Functions
3.5 مثال: دنیای شبکه‌ای کوچک 3.5 Example: Mini-Gridworld
3.6 معادلات بهینگی بلمن 3.6 Bellman Optimality Equations

برنامه‌نویسی پویا Dynamic Programming

4.1 مقادیر محدود به زمان 4.1 Time-Limited Values
4.2 تکرار ارزش (Value Iteration) 4.2 Value Iteration
4.3 پیاده‌سازی تکرار ارزش 4.3 Value Iteration Implementation
4.4 تکرار سیاست (Policy Iteration) 4.4 Policy Iteration
4.5 مثال: دنیای شبکه‌ای کوچک 4.5 Example: Mini-Gridworld
4.6 پیچیدگی الگوریتم 4.6 Algorithm Complexity

فرآیندهای تصمیم مارکوف با مشاهده‌پذیری جزئی Partially Observable Markov Decision Processes

5.1 مشاهده‌پذیری جزئی و POMDP 5.1 Partial Observability and POMDP
5.2 حالت‌های باور (Belief States) 5.2 Belief States
5.3 مدل انتقال باور 5.3 Belief Transition Model
5.4 سیاست‌ها و توابع ارزش 5.4 Policies and Value Functions
5.5 مثال: دنیای شبکه‌ای کوچک 5.5 Example: Mini-Gridworld

روش‌های مونت کارلو Monte Carlo Methods

6.1 روش‌های مونت کارلو 6.1 Monte Carlo Methods
6.2 پیش‌بینی MC اولین بازدید 6.2 First-Visit MC Prediction
6.3 مقادیر حالت-اکشن 6.3 State-Action Values
6.4 کنترل MC درون-سیاستی ε-Greedy 6.4 Ɛ−Greedy On-Policy MC Control
6.5 کنترل MC درون-سیاستی و برون-سیاستی 6.5 On and Off-Policy MC Control
6.6 مثال: دنیای شبکه‌ای کوچک 6.6 Example: Mini-Gridworld

یادگیری تفاوت زمانی Temporal-Difference Learning

7.1 یادگیری تفاوت زمانی 7.1 Temporal Difference Learning
7.2 پیش‌بینی تفاوت زمانی 7.2 Temporal Difference Prediction
7.3 به‌روزرسانی دسته‌ای (Batch Updating) 7.3 Batch Updating
7.4 یادگیری TD برای کنترل 7.4 TD Learning for Control
7.5 مقایسه SARSA و Q-Learning 7.5 SARSA vs Q-Learning

تعمیم‌پذیری در یادگیری تقویت‌پذیر Reinforcement Learning - Generalization

8.1 پیش‌بینی تفاوت زمانی n-step 8.1 𝑛-step Temporal Difference Prediction
8.2 روش SARSA n-step 8.2 𝑛-step SARSA
8.3 روش‌های مدل‌محور 8.3 Model-Based Methods
8.4 تقریب تابع 8.4 Function Approximation

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

جزییات دوره

زمان دوره: 47h 9m

تعداد ویدیو ها: 41

شرکت: Coursera (کورسرا)

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع : 4,640

امتیاز مرجع: 4.3 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Chris Croft

لینک کوتاه این دوره

https://donyad.com/d/10f525

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

آموزش تصمیم‌گیری و یادگیری تقویت‌پذیر - آخرین آپدیت

دانلود Decision Making and Reinforcement Learning

تصمیم‌گیری و نظریه مطلوبیت Decision Making and Utility Theory

مقدمه‌ای بر تصمیم‌گیری و یادگیری تقویت‌پذیر Introduction to Decision Making and Reinforcement Learning

جزئیات و ساختار دوره Course Logistics

1.1 عامل‌های منطقی و نظریه مطلوبیت 1.1 Rational Agents and Utility Theory

1.2 ترجیحات و اصول نظریه مطلوبیت 1.2 Preferences and Axioms of Utility Theory

1.3 مطلوبیت‌های نامطمئن و چند ویژگی 1.3 Uncertain and Multi-Attribute Utilities

1.4 ارزش اطلاعات کامل 1.4 Value of Perfect Information

مسائل باندیت (Bandit Problems) Bandit Problems

2.1 باندیت‌های چند بازویی و مقادیر اکشن 2.1 Multi-Armed Bandits and Action Values

2.2 انتخاب اکشن ε-Greedy 2.2 Ɛ-Greedy Action Selection

2.3 کران اعتماد بالا (UCB) 2.3 Upper Confidence Bound

فرآیندهای تصمیم مارکوف Markov Decision Processes

3.1 چارچوب فرآیند تصمیم مارکوف 3.1 Markov Decision Process Framework

3.2 مثال دنیای شبکه‌ای (Gridworld) 3.2 Gridworld Example

3.3 پاداش‌ها، مطلوبیت‌ها و تخفیف‌دهی 3.3 Rewards, Utilities, and Discounting

3.4 سیاست‌ها و توابع ارزش 3.4 Policies and Value Functions

3.5 مثال: دنیای شبکه‌ای کوچک 3.5 Example: Mini-Gridworld

3.6 معادلات بهینگی بلمن 3.6 Bellman Optimality Equations

برنامه‌نویسی پویا Dynamic Programming

4.1 مقادیر محدود به زمان 4.1 Time-Limited Values

4.2 تکرار ارزش (Value Iteration) 4.2 Value Iteration

4.3 پیاده‌سازی تکرار ارزش 4.3 Value Iteration Implementation

4.4 تکرار سیاست (Policy Iteration) 4.4 Policy Iteration

4.5 مثال: دنیای شبکه‌ای کوچک 4.5 Example: Mini-Gridworld

4.6 پیچیدگی الگوریتم 4.6 Algorithm Complexity

فرآیندهای تصمیم مارکوف با مشاهده‌پذیری جزئی Partially Observable Markov Decision Processes

5.1 مشاهده‌پذیری جزئی و POMDP 5.1 Partial Observability and POMDP

5.2 حالت‌های باور (Belief States) 5.2 Belief States

5.3 مدل انتقال باور 5.3 Belief Transition Model

5.4 سیاست‌ها و توابع ارزش 5.4 Policies and Value Functions

5.5 مثال: دنیای شبکه‌ای کوچک 5.5 Example: Mini-Gridworld

روش‌های مونت کارلو Monte Carlo Methods

6.1 روش‌های مونت کارلو 6.1 Monte Carlo Methods

6.2 پیش‌بینی MC اولین بازدید 6.2 First-Visit MC Prediction

6.3 مقادیر حالت-اکشن 6.3 State-Action Values

6.4 کنترل MC درون-سیاستی ε-Greedy 6.4 Ɛ−Greedy On-Policy MC Control

6.5 کنترل MC درون-سیاستی و برون-سیاستی 6.5 On and Off-Policy MC Control

6.6 مثال: دنیای شبکه‌ای کوچک 6.6 Example: Mini-Gridworld

یادگیری تفاوت زمانی Temporal-Difference Learning

7.1 یادگیری تفاوت زمانی 7.1 Temporal Difference Learning

7.2 پیش‌بینی تفاوت زمانی 7.2 Temporal Difference Prediction

7.3 به‌روزرسانی دسته‌ای (Batch Updating) 7.3 Batch Updating

7.4 یادگیری TD برای کنترل 7.4 TD Learning for Control

7.5 مقایسه SARSA و Q-Learning 7.5 SARSA vs Q-Learning

تعمیم‌پذیری در یادگیری تقویت‌پذیر Reinforcement Learning - Generalization

8.1 پیش‌بینی تفاوت زمانی n-step 8.1 𝑛-step Temporal Difference Prediction

8.2 روش SARSA n-step 8.2 𝑛-step SARSA

8.3 روش‌های مدل‌محور 8.3 Model-Based Methods

8.4 تقریب تابع 8.4 Function Approximation

نمایش نظرات

https://donyad.com/d/10f525