دسترسی سریع:

مسیر:

صفحه اصلی

🔔 با توجه به بهبود نسبی اینترنت، آماده‌سازی دوره‌ها آغاز شده است. به دلیل تداوم برخی اختلالات، بارگذاری دوره‌ها ممکن است با کمی تأخیر انجام شود. مدت اشتراک‌های تهیه‌شده محفوظ است.

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش مبانی یادگیری تقویتی - آخرین آپدیت

دانلود Fundamentals of Reinforcement Learning bestseller

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره:

در این دوره، سفری سیستماتیک به اعماق مفاهیم بنیادی یادگیری تقویتی (Reinforcement Learning - RL) خواهیم داشت؛ از مسئله باندهای K-مسلح (k-armed bandits) تا برنامه‌ریزی از طریق فرآیندهای تصمیم مارکوف (Markov Decision Processes) و یادگیری TD.

در این دوره چه خواهید آموخت؟

تسلط بر مفاهیم اصلی یادگیری تقویتی، از باندهای K-مسلح تا الگوریتم‌های پیشرفته برنامه‌ریزی.
پیاده‌سازی الگوریتم‌های کلیدی یادگیری تقویتی از جمله مونت‌کارلو (Monte Carlo)، سارسا (SARSA) و کیو-لرنینگ (Q-learning) از پایه با پایتون.
به‌کارگیری تکنیک‌های یادگیری تقویتی برای حل مسائل کلاسیک مانند Frozen Lake، Jack's Car Rental، Blackjack و Cliff Walking.
توسعه درک عمیقی از مبانی ریاضی زیربنای رویکردهای نوین یادگیری تقویتی.

پیش‌نیازهای دوره:

دانشجویان باید با برنامه‌نویسی پایتون، از جمله کتابخانه‌های NumPy و Pandas، آشنایی کامل داشته باشند.
آشنایی اولیه با مفاهیم احتمال (مانند توزیع‌های احتمالی، متغیرهای تصادفی، احتمالات شرطی و مشترک) مفید است.
در حالی که آشنایی با سایر روش‌های یادگیری ماشین کمک‌کننده است، اما الزامی نیست. ما مفاهیم ضروری یادگیری تقویتی را از پایه و به‌طور جامع آموزش خواهیم داد.
تمرینات هر بخش در پایتون خالص (نه Jupyter Notebooks) هستند و اغلب شامل ویرایش چندین ماژول می‌شوند، بنابراین دانشجویان باید یک ویرایشگر کد (مانند VS Code یا PyCharm) را آماده کنند.

یادگیری تقویتی یکی از هیجان‌انگیزترین و پویاترین شاخه‌های هوش مصنوعی مدرن محسوب می‌شود.

این حوزه عمدتاً به دلیل پیشرفت درخشان اولیه DeepMind در سال ۲۰۱۶، به آگاهی عمومی رسید. آن‌ها با استفاده از یادگیری تقویتی، یک معیار مهم در هوش مصنوعی را که تصور می‌شد تا دهه‌ها دور از دسترس باشد، شکست دادند – در آن سال، DeepMind توانست بزرگترین استاد بزرگ انسانی جهان را در بازی چینی Go شکست دهد.

این دستاورد به دلیل پیچیدگی و بزرگی بی‌حدوحصر درخت بازی Go بسیار استثنایی بود؛ تعداد حرکات ممکن در این بازی به اندازه‌ای است که با عدد ۱ و ۲۰۰ صفر پس از آن (معادل "گورگوگول") توصیف می‌شود! این را با شطرنج مقایسه کنید که تنها ۱۰^۵۰ گره در درخت خود دارد.

شطرنج در سال ۱۹۹۷ توسط Deep Blue شرکت IBM، که گری کاسپاروف، بهترین شطرنج‌باز جهان را شکست داد، "حل" شد. Deep Blue نمونه نهایی نسل قبلی هوش مصنوعی – موسوم به هوش مصنوعی قدیمی خوب (GOFAI) – بود. در آن رویکرد، تیمی از استادان بزرگ انسانی، استراتژی‌های شروع بازی، ارزش‌گذاری مهره‌ها و صفحه و پایگاه‌های داده پایان بازی را به‌طور دستی و سخت‌کد شده در یک کامپیوتر قدرتمند وارد کردند که سپس با استفاده از روشی نسبتاً جامع (brute-force)، محاسبات را انجام می‌داد.

اما رویکرد DeepMind کاملاً متفاوت بود. به جای اینکه انسان‌ها قواعد اکتشافی (heuristics) را برای چگونگی انجام یک بازی Go خوب کدگذاری کنند، آن‌ها یادگیری تقویتی را به کار گرفتند. به این ترتیب، الگوریتم‌های آن‌ها – با میلیون‌ها بار بازی کردن با خود و تجربه برد و باخت – توانستند استراتژی‌های بهینه را به‌طور مستقل توسعه دهند.

نتیجه، یک الگوریتم بازی‌کننده‌ای بود که محدود به دانش انسانی نبود. استادان بزرگ Go تا به امروز نیز حرکات منحصربه‌فرد و خلاقانه این الگوریتم را در سری مسابقاتش با لی سه‌دول (Lee Sedol) مطالعه می‌کنند.

از آن زمان، DeepMind نشان داده است که چگونه یادگیری تقویتی می‌تواند به‌طور عملی در مسائل زندگی واقعی به کار گرفته شود. یک عامل یادگیری تقویتی که سیستم خنک‌کننده یک مرکز داده گوگل را کنترل می‌کرد، استراتژی‌هایی یافت که هیچ مهندس کنترل انسانی به آن‌ها فکر نکرده بود؛ از جمله بهره‌برداری از دمای زمستان برای صرفه‌جویی در مصرف بخاری. عامل دیگری از آن‌ها که برای یک رآکتور همجوشی آزمایشی به کار گرفته شد، نیز به طور مشابه استراتژی‌های فراانسانی برای کنترل پلاسمای بسیار پیچیده در رآکتور یافت.

بنابراین، یادگیری تقویتی وعده می‌دهد که به حل برخی از مشکلات بزرگ علم و مهندسی کمک کند. اما همچنین دارای انبوهی از کاربردهای تجاری فوری‌تر نیز هست – از تست A/B محصولات و طراحی وب‌سایت، تا پیاده‌سازی سیستم‌های توصیه‌گر برای یادگیری نحوه تطبیق مشتریان یک شرکت با محصولات آن، تا معاملات الگوریتمی، که هدف آن خرید یا فروش سهام برای به حداکثر رساندن سود است.

این دوره، مبانی هیجان‌انگیزترین شاخه هوش مصنوعی را به شما آموزش خواهد داد. شما هم با نظریه زیربنایی الگوریتم‌ها آشنا خواهید شد و هم تجربه عملی پیاده‌سازی آن‌ها را در پایتون به دست خواهید آورد.

در پایان این دوره، شما درک بنیادی و عمیقی از این الگوریتم‌ها خواهید داشت. ما بر روش‌های "جدولی" (tabular methods) با استفاده از آرایه‌های ساده NumPy تمرکز خواهیم کرد، نه شبکه‌های عصبی. این رویکرد به این دلیل انتخاب شده است که اغلب با ساده‌سازی مسائل به ابتدایی‌ترین شکل و بررسی گام به گام یک الگوریتم با قلم و کاغذ، بهترین درک و شهود حاصل می‌شود.

فرصت کافی برای این رویکرد عملی در این دوره وجود دارد و هر بخش با یک تمرین برنامه‌نویسی به پایان می‌رسد که در آن خودتان الگوریتم‌ها را از ابتدا خواهید ساخت.

از اینجا به بعد، دنیا در دستان شماست! می‌توانید به سراغ حل مشکلات خودروهای خودران بروید، میلیاردها دلار در یک صندوق سرمایه‌گذاری (hedge fund) کسب کنید، یا با حل مشکل انرژی همجوشی، بشریت را نجات دهید!

سرفصل ها و درس ها

مقدمه Introduction

مقدمه Introduction
مرور کلی دوره Course overview

مشکل دزدان مسلح K-بازو (K-armed bandits) K-armed bandits

مقدمه‌ای بر مشکل دزدان مسلح K-بازو Introduction to k-armed bandits
آماده‌سازی صحنه Setting the scene
مفاهیم اولیه Initial concepts
روش‌های ارزش عمل // حریصانه (Greedy) Action value methods // Greedy
روش‌های ارزش عمل // اپسیلون-حریصانه (Epsilon-greedy) Action value methods // Epsilon-greedy
روش‌های ارزش عمل // پیاده‌سازی کارآمد Action value methods // Efficient implementation
دزدان مسلح غیرایستا Non-stationary bandits
مقادیر اولیه خوش‌بینانه Optimistic initial values
شروع اولین تکلیف شما: بسترهای آزمایش ۱۰-بازویی Getting started with your first assignement: the 10-armed testbed
تجربه عملی با دزدان مسلح K-بازو Hands on with k-armed bandits

فرایندهای تصمیم مارکوف (MDPs) Markov Decision Processes (MDPs)

مقدمه‌ای بر MDPs Introduction to MDPs
از دزدان مسلح تا MDPs // آماده‌سازی صحنه From bandits to MDPs // setting the scene
از دزدان مسلح تا MDPs // مرور کامل (Walk-through) دریاچه یخ‌زده From bandits to MDPs // Frozen Lake walk-through
از دزدان مسلح تا MDPs // مثال‌های دنیای واقعی From bandits to MDPs // Real world examples
اهداف، پاداش‌ها، بازده‌ها و اپیزودها Goals, rewards, returns and episodes
سیاست‌ها و توابع ارزش Policies and value functions
معادلات بلمن // معادله امید ریاضی برای v(s) Bellman equations // Expectation equation for v(s)
معادلات بلمن // معادله امید ریاضی برای q(s, a) Bellman equations // Expectation equation for q(s, a)
معادلات بلمن // معادلات بهینگی Bellman equations // Optimality equations
مرور کامل (Walk-through) // معادله امید ریاضی بلمن Walk-through // Bellman expectation equation
مرور کامل (Walk-through) // معادله بهینگی بلمن Walk-through // Bellman optimality equation
مرور کامل (Walk-through) // وارون ماتریس Walk-through // Matrix inversion
خلاصه بخش MDP MDP section summary
راه‌حل‌های تحلیلی برای دریاچه یخ‌زده Analytic solutions to Frozen Lake

برنامه‌ریزی پویا (DP) Dynamic Programming (DP)

مقدمه‌ای بر برنامه‌ریزی پویا Introduction to Dynamic Programming
ارزیابی سیاست // مقدمه Policy evaluation // introduction
ارزیابی سیاست // مرور کامل Policy evaluation // walk-through
بهبود سیاست // مقدمه و اثبات Policy improvement // introduction and proof
بهبود سیاست // مرور کامل Policy improvement // walk-through
تکرار سیاست Policy iteration
تکرار ارزش // مقدمه Value iteration // introduction
تکرار ارزش // مرور کامل Value iteration // walkthrough
تجربه عملی با برنامه‌ریزی پویا: اجاره اتومبیل جک Hands on with Dynamic Programming: Jack's Car Rental

روش‌های مونت کارلو Monte Carlo methods

مقدمه‌ای بر روش‌های مونت کارلو Introduction to Monte Carlo methods
آماده‌سازی صحنه Setting the scene
مثال مونت کارلو // مساحت یک ستاره پنج‌پر Monte Carlo example // area of a pentagram
تمرین: تخمین MC مساحت یک شکل پیچیده Exercise: MC estimation of area of a complex shape
پیش‌بینی Prediction
کنترل - شروع‌های کاوشگرانه Control - exploring starts
کنترل - درون‌سیاستی (on-policy) Control - on-policy
کنترل - برون‌سیاستی (off-policy) // مفاهیم جدید Control - off-policy // new concepts
کنترل - برون‌سیاستی (off-policy) // پیاده‌سازی Control - off-policy // implementation
معرفی محیط // بلک‌جک (Blackjack) Environment introduction // Blackjack
تجربه عملی با روش‌های مونت کارلو: بلک‌جک Hands on with Monte Carlo methods: Blackjack

روش‌های اختلاف زمانی (TD) Temporal Difference (TD) methods

مقدمه‌ای بر روش‌های TD Introduction to TD methods
آماده‌سازی صحنه Setting the scene
سارسا (Sarsa) Sarsa
یادگیری کیو (Q-learning) Q-learning
سارسای مورد انتظار Expected sarsa
تجربه عملی با روش‌های اختلاف زمانی: پیاده‌روی در صخره Hands on with Temporal Difference methods: Cliff Walking

روش‌های برنامه‌ریزی Planning methods

مقدمه‌ای بر روش‌های برنامه‌ریزی Introduction to planning methods
پر کردن دقیقه بی‌رحم Filling the unforgiving minute
داینا-کیو (Dyna-Q) // مقدمه Dyna-Q // introduction
داینا-کیو (Dyna-Q) // مرور کامل Dyna-Q // walk-through
برنامه‌ریزی با محیط‌های غیرایستا: داینا-کیو پلاس (Dyna-Q+) Planning with non-stationary environments: Dyna-Q+
تجربه عملی با روش‌های برنامه‌ریزی Hands on with planning methods

تبریک و بازخورد Congratulations and feedback

تبریک می‌گوییم! Congratulations!

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

جزییات دوره

زمان دوره: 10.5 hours

تعداد ویدیو ها: 52

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 387

امتیاز مرجع: 4.6 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: ندارد

زیرنویس فارسی: (توسط هوش مصنوعی) ندارد

مدرس: Tom Walker

لینک کوتاه این دوره

https://donyad.com/d/4295d4

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

تدریس و دانشگاهیان

علوم پایه

آموزش مبانی یادگیری تقویتی - آخرین آپدیت

دانلود Fundamentals of Reinforcement Learning bestseller

در این دوره چه خواهید آموخت؟

پیش‌نیازهای دوره:

مقدمه Introduction

مقدمه Introduction

مرور کلی دوره Course overview

مشکل دزدان مسلح K-بازو (K-armed bandits) K-armed bandits

مقدمه‌ای بر مشکل دزدان مسلح K-بازو Introduction to k-armed bandits

آماده‌سازی صحنه Setting the scene

مفاهیم اولیه Initial concepts

روش‌های ارزش عمل // حریصانه (Greedy) Action value methods // Greedy

روش‌های ارزش عمل // اپسیلون-حریصانه (Epsilon-greedy) Action value methods // Epsilon-greedy

روش‌های ارزش عمل // پیاده‌سازی کارآمد Action value methods // Efficient implementation

دزدان مسلح غیرایستا Non-stationary bandits

مقادیر اولیه خوش‌بینانه Optimistic initial values

شروع اولین تکلیف شما: بسترهای آزمایش ۱۰-بازویی Getting started with your first assignement: the 10-armed testbed

تجربه عملی با دزدان مسلح K-بازو Hands on with k-armed bandits

فرایندهای تصمیم مارکوف (MDPs) Markov Decision Processes (MDPs)

مقدمه‌ای بر MDPs Introduction to MDPs

از دزدان مسلح تا MDPs // آماده‌سازی صحنه From bandits to MDPs // setting the scene

از دزدان مسلح تا MDPs // مرور کامل (Walk-through) دریاچه یخ‌زده From bandits to MDPs // Frozen Lake walk-through

از دزدان مسلح تا MDPs // مثال‌های دنیای واقعی From bandits to MDPs // Real world examples

اهداف، پاداش‌ها، بازده‌ها و اپیزودها Goals, rewards, returns and episodes

سیاست‌ها و توابع ارزش Policies and value functions

معادلات بلمن // معادله امید ریاضی برای v(s) Bellman equations // Expectation equation for v(s)

معادلات بلمن // معادله امید ریاضی برای q(s, a) Bellman equations // Expectation equation for q(s, a)

معادلات بلمن // معادلات بهینگی Bellman equations // Optimality equations

مرور کامل (Walk-through) // معادله امید ریاضی بلمن Walk-through // Bellman expectation equation

مرور کامل (Walk-through) // معادله بهینگی بلمن Walk-through // Bellman optimality equation

مرور کامل (Walk-through) // وارون ماتریس Walk-through // Matrix inversion

خلاصه بخش MDP MDP section summary

راه‌حل‌های تحلیلی برای دریاچه یخ‌زده Analytic solutions to Frozen Lake

برنامه‌ریزی پویا (DP) Dynamic Programming (DP)

مقدمه‌ای بر برنامه‌ریزی پویا Introduction to Dynamic Programming

ارزیابی سیاست // مقدمه Policy evaluation // introduction

ارزیابی سیاست // مرور کامل Policy evaluation // walk-through

بهبود سیاست // مقدمه و اثبات Policy improvement // introduction and proof

بهبود سیاست // مرور کامل Policy improvement // walk-through

تکرار سیاست Policy iteration

تکرار ارزش // مقدمه Value iteration // introduction

تکرار ارزش // مرور کامل Value iteration // walkthrough

تجربه عملی با برنامه‌ریزی پویا: اجاره اتومبیل جک Hands on with Dynamic Programming: Jack's Car Rental

روش‌های مونت کارلو Monte Carlo methods

مقدمه‌ای بر روش‌های مونت کارلو Introduction to Monte Carlo methods

آماده‌سازی صحنه Setting the scene

مثال مونت کارلو // مساحت یک ستاره پنج‌پر Monte Carlo example // area of a pentagram

تمرین: تخمین MC مساحت یک شکل پیچیده Exercise: MC estimation of area of a complex shape

پیش‌بینی Prediction

کنترل - شروع‌های کاوشگرانه Control - exploring starts

کنترل - درون‌سیاستی (on-policy) Control - on-policy

کنترل - برون‌سیاستی (off-policy) // مفاهیم جدید Control - off-policy // new concepts

کنترل - برون‌سیاستی (off-policy) // پیاده‌سازی Control - off-policy // implementation

معرفی محیط // بلک‌جک (Blackjack) Environment introduction // Blackjack

تجربه عملی با روش‌های مونت کارلو: بلک‌جک Hands on with Monte Carlo methods: Blackjack

روش‌های اختلاف زمانی (TD) Temporal Difference (TD) methods

مقدمه‌ای بر روش‌های TD Introduction to TD methods

آماده‌سازی صحنه Setting the scene

سارسا (Sarsa) Sarsa

یادگیری کیو (Q-learning) Q-learning

سارسای مورد انتظار Expected sarsa

تجربه عملی با روش‌های اختلاف زمانی: پیاده‌روی در صخره Hands on with Temporal Difference methods: Cliff Walking

روش‌های برنامه‌ریزی Planning methods

مقدمه‌ای بر روش‌های برنامه‌ریزی Introduction to planning methods

پر کردن دقیقه بی‌رحم Filling the unforgiving minute

داینا-کیو (Dyna-Q) // مقدمه Dyna-Q // introduction

داینا-کیو (Dyna-Q) // مرور کامل Dyna-Q // walk-through

برنامه‌ریزی با محیط‌های غیرایستا: داینا-کیو پلاس (Dyna-Q+) Planning with non-stationary environments: Dyna-Q+

تجربه عملی با روش‌های برنامه‌ریزی Hands on with planning methods

تبریک و بازخورد Congratulations and feedback

تبریک می‌گوییم! Congratulations!

نمایش نظرات

https://donyad.com/d/4295d4

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar