🔔 با توجه به بهبود نسبی اینترنت، آمادهسازی دورهها آغاز شده است. به دلیل تداوم برخی اختلالات، بارگذاری دورهها ممکن است با کمی تأخیر انجام شود. مدت اشتراکهای تهیهشده محفوظ است.
لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش مبانی یادگیری تقویتی
- آخرین آپدیت
دانلود Fundamentals of Reinforcement Learning
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
در این دوره، سفری سیستماتیک به اعماق مفاهیم بنیادی یادگیری تقویتی (Reinforcement Learning - RL) خواهیم داشت؛ از مسئله باندهای K-مسلح (k-armed bandits) تا برنامهریزی از طریق فرآیندهای تصمیم مارکوف (Markov Decision Processes) و یادگیری TD.
در این دوره چه خواهید آموخت؟
تسلط بر مفاهیم اصلی یادگیری تقویتی، از باندهای K-مسلح تا الگوریتمهای پیشرفته برنامهریزی.
پیادهسازی الگوریتمهای کلیدی یادگیری تقویتی از جمله مونتکارلو (Monte Carlo)، سارسا (SARSA) و کیو-لرنینگ (Q-learning) از پایه با پایتون.
بهکارگیری تکنیکهای یادگیری تقویتی برای حل مسائل کلاسیک مانند Frozen Lake، Jack's Car Rental، Blackjack و Cliff Walking.
توسعه درک عمیقی از مبانی ریاضی زیربنای رویکردهای نوین یادگیری تقویتی.
پیشنیازهای دوره:
دانشجویان باید با برنامهنویسی پایتون، از جمله کتابخانههای NumPy و Pandas، آشنایی کامل داشته باشند.
آشنایی اولیه با مفاهیم احتمال (مانند توزیعهای احتمالی، متغیرهای تصادفی، احتمالات شرطی و مشترک) مفید است.
در حالی که آشنایی با سایر روشهای یادگیری ماشین کمککننده است، اما الزامی نیست. ما مفاهیم ضروری یادگیری تقویتی را از پایه و بهطور جامع آموزش خواهیم داد.
تمرینات هر بخش در پایتون خالص (نه Jupyter Notebooks) هستند و اغلب شامل ویرایش چندین ماژول میشوند، بنابراین دانشجویان باید یک ویرایشگر کد (مانند VS Code یا PyCharm) را آماده کنند.
یادگیری تقویتی یکی از هیجانانگیزترین و پویاترین شاخههای هوش مصنوعی مدرن محسوب میشود.
این حوزه عمدتاً به دلیل پیشرفت درخشان اولیه DeepMind در سال ۲۰۱۶، به آگاهی عمومی رسید. آنها با استفاده از یادگیری تقویتی، یک معیار مهم در هوش مصنوعی را که تصور میشد تا دههها دور از دسترس باشد، شکست دادند – در آن سال، DeepMind توانست بزرگترین استاد بزرگ انسانی جهان را در بازی چینی Go شکست دهد.
این دستاورد به دلیل پیچیدگی و بزرگی بیحدوحصر درخت بازی Go بسیار استثنایی بود؛ تعداد حرکات ممکن در این بازی به اندازهای است که با عدد ۱ و ۲۰۰ صفر پس از آن (معادل "گورگوگول") توصیف میشود! این را با شطرنج مقایسه کنید که تنها ۱۰۵۰ گره در درخت خود دارد.
شطرنج در سال ۱۹۹۷ توسط Deep Blue شرکت IBM، که گری کاسپاروف، بهترین شطرنجباز جهان را شکست داد، "حل" شد. Deep Blue نمونه نهایی نسل قبلی هوش مصنوعی – موسوم به هوش مصنوعی قدیمی خوب (GOFAI) – بود. در آن رویکرد، تیمی از استادان بزرگ انسانی، استراتژیهای شروع بازی، ارزشگذاری مهرهها و صفحه و پایگاههای داده پایان بازی را بهطور دستی و سختکد شده در یک کامپیوتر قدرتمند وارد کردند که سپس با استفاده از روشی نسبتاً جامع (brute-force)، محاسبات را انجام میداد.
اما رویکرد DeepMind کاملاً متفاوت بود. به جای اینکه انسانها قواعد اکتشافی (heuristics) را برای چگونگی انجام یک بازی Go خوب کدگذاری کنند، آنها یادگیری تقویتی را به کار گرفتند. به این ترتیب، الگوریتمهای آنها – با میلیونها بار بازی کردن با خود و تجربه برد و باخت – توانستند استراتژیهای بهینه را بهطور مستقل توسعه دهند.
نتیجه، یک الگوریتم بازیکنندهای بود که محدود به دانش انسانی نبود. استادان بزرگ Go تا به امروز نیز حرکات منحصربهفرد و خلاقانه این الگوریتم را در سری مسابقاتش با لی سهدول (Lee Sedol) مطالعه میکنند.
از آن زمان، DeepMind نشان داده است که چگونه یادگیری تقویتی میتواند بهطور عملی در مسائل زندگی واقعی به کار گرفته شود. یک عامل یادگیری تقویتی که سیستم خنککننده یک مرکز داده گوگل را کنترل میکرد، استراتژیهایی یافت که هیچ مهندس کنترل انسانی به آنها فکر نکرده بود؛ از جمله بهرهبرداری از دمای زمستان برای صرفهجویی در مصرف بخاری. عامل دیگری از آنها که برای یک رآکتور همجوشی آزمایشی به کار گرفته شد، نیز به طور مشابه استراتژیهای فراانسانی برای کنترل پلاسمای بسیار پیچیده در رآکتور یافت.
بنابراین، یادگیری تقویتی وعده میدهد که به حل برخی از مشکلات بزرگ علم و مهندسی کمک کند. اما همچنین دارای انبوهی از کاربردهای تجاری فوریتر نیز هست – از تست A/B محصولات و طراحی وبسایت، تا پیادهسازی سیستمهای توصیهگر برای یادگیری نحوه تطبیق مشتریان یک شرکت با محصولات آن، تا معاملات الگوریتمی، که هدف آن خرید یا فروش سهام برای به حداکثر رساندن سود است.
این دوره، مبانی هیجانانگیزترین شاخه هوش مصنوعی را به شما آموزش خواهد داد. شما هم با نظریه زیربنایی الگوریتمها آشنا خواهید شد و هم تجربه عملی پیادهسازی آنها را در پایتون به دست خواهید آورد.
در پایان این دوره، شما درک بنیادی و عمیقی از این الگوریتمها خواهید داشت. ما بر روشهای "جدولی" (tabular methods) با استفاده از آرایههای ساده NumPy تمرکز خواهیم کرد، نه شبکههای عصبی. این رویکرد به این دلیل انتخاب شده است که اغلب با سادهسازی مسائل به ابتداییترین شکل و بررسی گام به گام یک الگوریتم با قلم و کاغذ، بهترین درک و شهود حاصل میشود.
فرصت کافی برای این رویکرد عملی در این دوره وجود دارد و هر بخش با یک تمرین برنامهنویسی به پایان میرسد که در آن خودتان الگوریتمها را از ابتدا خواهید ساخت.
از اینجا به بعد، دنیا در دستان شماست! میتوانید به سراغ حل مشکلات خودروهای خودران بروید، میلیاردها دلار در یک صندوق سرمایهگذاری (hedge fund) کسب کنید، یا با حل مشکل انرژی همجوشی، بشریت را نجات دهید!
نمایش نظرات