لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش تصمیمگیری و یادگیری تقویتپذیر
- آخرین آپدیت
دانلود Decision Making and Reinforcement Learning
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
این دوره مقدمهای بر تصمیمگیری متوالی و یادگیری تقویتپذیر (Reinforcement Learning) است. ما کار را با بحث درباره نظریه مطلوبیت آغاز میکنیم تا یاد بگیریم چگونه میتوان ترجیحات را برای تصمیمگیری بازنمایی و مدلسازی کرد. ابتدا مسائل تصمیمگیری ساده را به عنوان مسائل چند بازویی (Multi-armed Bandit) مدلسازی کرده و چندین روش برای ارزیابی بازخورد را بررسی میکنیم. سپس مسائل تصمیمگیری را به عنوان فرآیندهای تصمیم مارکوف محدود (MDPs) مدلسازی کرده و راهحلهای آنها را از طریق الگوریتمهای برنامهنویسی پویا مورد بحث قرار میدهیم. ما به مفهوم مشاهدهپذیری جزئی در مسائل واقعی، که توسط POMDPs مدلسازی میشود و سپس توسط روشهای برنامهریزی آنلاین حل میشود، میپردازیم. در نهایت، مسئله یادگیری تقویتپذیر را معرفی کرده و دو پارادایم اصلی یعنی روشهای مونت کارلو و یادگیری تفاوت زمانی را بررسی میکنیم. دوره را با این نکته به پایان میبریم که چگونه این دو پارادایم در طیف روشهای تفاوت زمانی n-step قرار میگیرند. تأکید بر الگوریتمها و مثالهای کاربردی بخش کلیدی این دوره خواهد بود.
سرفصل ها و درس ها
تصمیمگیری و نظریه مطلوبیت
Decision Making and Utility Theory
مقدمهای بر تصمیمگیری و یادگیری تقویتپذیر
Introduction to Decision Making and Reinforcement Learning
جزئیات و ساختار دوره
Course Logistics
1.1 عاملهای منطقی و نظریه مطلوبیت
1.1 Rational Agents and Utility Theory
1.2 ترجیحات و اصول نظریه مطلوبیت
1.2 Preferences and Axioms of Utility Theory
1.3 مطلوبیتهای نامطمئن و چند ویژگی
1.3 Uncertain and Multi-Attribute Utilities
1.4 ارزش اطلاعات کامل
1.4 Value of Perfect Information
مسائل باندیت (Bandit Problems)
Bandit Problems
2.1 باندیتهای چند بازویی و مقادیر اکشن
2.1 Multi-Armed Bandits and Action Values
2.2 انتخاب اکشن ε-Greedy
2.2 Ɛ-Greedy Action Selection
2.3 کران اعتماد بالا (UCB)
2.3 Upper Confidence Bound
فرآیندهای تصمیم مارکوف
Markov Decision Processes
3.1 چارچوب فرآیند تصمیم مارکوف
3.1 Markov Decision Process Framework
3.2 مثال دنیای شبکهای (Gridworld)
3.2 Gridworld Example
3.3 پاداشها، مطلوبیتها و تخفیفدهی
3.3 Rewards, Utilities, and Discounting
3.4 سیاستها و توابع ارزش
3.4 Policies and Value Functions
3.5 مثال: دنیای شبکهای کوچک
3.5 Example: Mini-Gridworld
نمایش نظرات