آموزش یادگیری تقویتی مدرن: یادگیری عمیق Q در PyTorch

Modern Reinforcement Learning: Deep Q Learning in PyTorch

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
توضیحات دوره: نحوه تبدیل مقالات تحقیقاتی Deep Reinforcement Learning به عواملی که بازی‌های کلاسیک Atari را شکست می‌دهند نحوه خواندن و پیاده‌سازی مقالات یادگیری تقویتی عمیق نحوه کدنویسی عوامل یادگیری Deep Q نحوه کدنویسی Double Deep Q عوامل یادگیری نحوه کدنویسی Dueling Deep Q و Dueling Double Deep Q آموزش عوامل آموزش نحوه نوشتن نرم افزار یادگیری تقویتی عمیق ماژولار و توسعه پذیر نحوه خودکارسازی تنظیم هایپرپارامتر با آرگومان های خط فرمان

در این دوره آموزشی کامل تقویت عمیق، شما یک چارچوب قابل تکرار برای خواندن و اجرای مقالات تحقیقاتی یادگیری تقویتی عمیق را خواهید آموخت. مقاله های اصلی را خواهید خواند که الگوریتم های یادگیری Deep Q ، یادگیری Double Deep Q و Dueling Deep Q را معرفی کرده اند. سپس یاد خواهید گرفت که چگونه این کدها را در کد پایتونیک و مختصر PyTorch پیاده سازی کنید، که می تواند برای شامل هر الگوریتم یادگیری عمیق Q در آینده گسترش یابد. این الگوریتم‌ها برای حل انواع محیط‌ها از کتابخانه Atari ورزشگاه Open AI از جمله Pong، Breakout و Bankheist استفاده خواهند شد.


شما کلید کارکردن این الگوریتم‌های Deep Q Learning را یاد خواهید گرفت، یعنی چگونه می‌توانید کتابخانه Atari Open AI Gym را برای مطابقت با مشخصات مقالات اصلی Deep Q Learning تغییر دهید. شما یاد خواهید گرفت که چگونه:

  • اقدامات را برای کاهش سربار محاسباتی تکرار کنید

  • تصاویر صفحه نمایش Atari را برای افزایش کارایی تغییر مقیاس دهید

  • قاب‌ها را روی هم قرار دهید تا به عامل Deep Q حس حرکت بدهید

  • عملکرد Deep Q agent را با بدون عملیات تصادفی ارزیابی کنید تا با مدل بیش از آموزش مقابله کنید

  • جوایز کلیپ برای فعال کردن عامل یادگیری Deep Q برای تعمیم بازی‌های Atari با مقیاس‌های امتیازی مختلف


اگر تجربه قبلی در زمینه تقویت یا یادگیری تقویتی عمیق ندارید، مشکلی نیست. در این دوره یک دوره کامل و مختصر در مورد مبانی یادگیری تقویتی گنجانده شده است. دوره مقدماتی یادگیری تقویتی در زمینه حل محیط دریاچه یخ زده از Open AI Gym تدریس می شود.

ما پوشش خواهیم داد:

  • فرایندهای تصمیم مارکوف

  • یادگیری تفاوت زمانی

  • الگوریتم اصلی یادگیری Q

  • نحوه حل معادله بلمن

  • توابع ارزش و توابع ارزش عمل

  • آموزش تقویتی مبتنی بر مدل رایگان در مقابل مدل

  • راه‌حل‌هایی برای معضل کاوش- بهره‌برداری، از جمله مقادیر اولیه خوش‌بینانه و انتخاب اقدام حریصانه اپسیلون

همچنین یک دوره آموزشی کوچک در یادگیری عمیق با استفاده از چارچوب PyTorch گنجانده شده است. این برای دانش‌آموزانی است که با مفاهیم اساسی یادگیری عمیق آشنا هستند، اما با جزئیات آشنا نیستند، یا کسانی که با یادگیری عمیق در چارچوب دیگری، مانند Tensorflow یا Keras راحت هستند. با نحوه کدنویسی یک شبکه عصبی عمیق در Pytorch و همچنین نحوه عملکرد شبکه های عصبی کانولوشن آشنا خواهید شد. این در اجرای یک عامل یادگیری ساده Deep Q برای حل مشکل Cartpole از ورزشگاه Open AI استفاده خواهد شد.


سرفصل ها و درس ها

معرفی Introduction

  • آنچه در این دوره خواهید آموخت What You Will Learn In This Course

  • پس زمینه، نرم افزار و سخت افزار مورد نیاز Required Background, software, and hardware

  • چگونه در این دوره موفق شویم How to Succeed in this Course

مبانی یادگیری تقویتی Fundamentals of Reinforcement Learning

  • عوامل، محیط ها و اقدامات Agents, Environments, and Actions

  • فرآیندهای تصمیم گیری مارکوف Markov Decision Processes

  • توابع ارزش، توابع ارزش عمل، و معادله بلمن Value Functions, Action Value Functions, and the Bellman Equation

  • مدل رایگان در مقابل یادگیری مبتنی بر مدل Model Free vs. Model Based Learning

  • معضل کاوش- بهره برداری The Explore-Exploit Dilemma

  • یادگیری تفاوت زمانی Temporal Difference Learning

دوره تصادفی یادگیری عمیق Deep Learning Crash Course

  • برخورد با فضاهای حالت پیوسته با شبکه های عصبی عمیق Dealing with Continuous State Spaces with Deep Neural Networks

  • آموزش ساده Deep Q در کد: مرحله 1 - کدگذاری شبکه Deep Q Naive Deep Q Learning in Code: Step 1 - Coding the Deep Q Network

  • آموزش ساده Deep Q در کد: مرحله 2 - کدگذاری کلاس عامل Naive Deep Q Learning in Code: Step 2 - Coding the Agent Class

  • یادگیری عمیق Q ساده در کد: مرحله 3 - کدگذاری حلقه اصلی و یادگیری Naive Deep Q Learning in Code: Step 3 - Coding the Main Loop and Learning

  • آموزش ساده Deep Q در کد: مرحله 4 - بررسی عملکرد کد ما Naive Deep Q Learning in Code: Step 4 - Verifying the Functionality of Our Code

  • یادگیری عمیق Q ساده در کد: مرحله 5 - تجزیه و تحلیل عملکرد نماینده ما Naive Deep Q Learning in Code: Step 5 - Analyzing Our Agent's Performance

  • برخورد با تصاویر صفحه با شبکه های عصبی کانولوشنال Dealing with Screen Images with Convolutional Neural Networks

کنترل سطح انسانی از طریق یادگیری تقویتی عمیق: از کاغذ تا کد Human Level Control Through Deep Reinforcement Learning: From Paper to Code

  • نحوه خواندن مقالات یادگیری عمیق How to Read Deep Learning Papers

  • تجزیه و تحلیل مقاله Analyzing the Paper

  • نحوه اصلاح محیط های ورزشی OpenAI Atari How to Modify the OpenAI Gym Atari Environments

  • نحوه پیش پردازش تصاویر صفحه ورزشی OpenAI Gym Atari How to Preprocess the OpenAI Gym Atari Screen Images

  • نحوه انباشتن تصاویر از پیش پردازش شده صفحه نمایش آتاری How to Stack the Preprocessed Atari Screen Images

  • چگونه همه تغییرات را ترکیب کنیم How to Combine All the Changes

  • نحوه اضافه کردن برش پاداش، اول آتش و بدون عملیات How to Add Reward Clipping, Fire First, and No Ops

  • نحوه کدگذاری حافظه عامل How to Code the Agent's Memory

  • نحوه کدنویسی شبکه Deep Q How to Code the Deep Q Network

  • کدگذاری Deep Q Agent: مرحله 1 - کدگذاری سازنده Coding the Deep Q Agent: Step 1 - Coding the Constructor

  • کدگذاری Deep Q Agent: مرحله 2 - انتخاب اکشن اپسیلون-گریدی Coding the Deep Q Agent: Step 2 - Epsilon-Greedy Action Selection

  • کدگذاری Deep Q Agent: مرحله 3 - حافظه، ذخیره مدل و کپی شبکه Coding the Deep Q Agent: Step 3 - Memory, Model Saving and Network Copying

  • کدگذاری Deep Q Agent: مرحله 4 - عملکرد یادگیری عامل Coding the Deep Q Agent: Step 4 - The Agent's Learn Function

  • کدگذاری Deep Q Agent: مرحله 5 - حلقه اصلی و تجزیه و تحلیل عملکرد Coding the Deep Q Agent: Step 5 - The Main Loop and Analyzing the Performance

یادگیری تقویتی عمیق با آموزش Double Q Deep Reinforcement Learning with Double Q Learning

  • تجزیه و تحلیل مقاله Analyzing the Paper

  • کدگذاری عامل یادگیری Double Q و تجزیه و تحلیل عملکرد Coding the Double Q Learning Agent and Analyzing Performance

معماری شبکه دوئل برای یادگیری تقویتی عمیق Dueling Network Architectures for Deep Reinforcement Learning

  • تجزیه و تحلیل مقاله Analyzing the Paper

  • تجزیه و تحلیل مقاله Analyzing the Paper

  • کدگذاری شبکه Dueling Deep Q Coding the Dueling Deep Q Network

  • کدنویسی عامل یادگیری Dueling Deep Q و تجزیه و تحلیل عملکرد Coding the Dueling Deep Q Learning Agent and Analyzing Performance

  • کدنویسی عامل یادگیری Dueling Double Deep Q و تجزیه و تحلیل عملکرد Coding the Dueling Double Deep Q Learning Agent and Analyzing Performance

بهبود راه حل های ما Improving On Our Solutions

  • پیاده سازی یک رابط خط فرمان برای آزمایش مدل سریع Implementing a Command Line Interface for Rapid Model Testing

  • ادغام پایه کد ما برای حداکثر توسعه پذیری Consolidating Our Code Base for Maximum Extensability

  • چگونه نماینده خود را آزمایش کنیم و بازی را در زمان واقعی تماشا کنیم How to Test Our Agent and Watch it Play the Game in Real Time

نتیجه Conclusion

  • خلاصه کردن آنچه یاد گرفته ایم Summarizing What We've Learned

سخنرانی پاداش Bonus Lecture

  • ویدئوی جایزه: از اینجا به کجا برویم Bonus Video: Where to Go From Here

نمایش نظرات

نظری ارسال نشده است.

آموزش یادگیری تقویتی مدرن: یادگیری عمیق Q در PyTorch
خرید اشتراک و دانلود خرید تکی و دانلود | 160,000 تومان (5 روز مهلت دانلود) زمان تقریبی آماده سازی لینک دانلود این دوره آموزشی حدود 5 تا 24 ساعت می باشد.
جزییات دوره
5.5 hours
41
Udemy (یودمی) udemy-small
11 مهر 1399 (آخرین آپدیت رو دریافت می‌کنید، حتی اگر این تاریخ بروز نباشد.)
4,602
4.8 از 5
دارد
دارد
دارد
Phil Tabor

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Phil Tabor Phil Tabor

مهندس یادگیری ماشین

Udemy (یودمی)

یودمی یکی از بزرگ‌ترین پلتفرم‌های آموزشی آنلاین است که به میلیون‌ها کاربر در سراسر جهان امکان دسترسی به دوره‌های متنوع و کاربردی را فراهم می‌کند. این پلتفرم امکان آموزش در زمینه‌های مختلف از فناوری اطلاعات و برنامه‌نویسی گرفته تا زبان‌های خارجی، مدیریت، و هنر را به کاربران ارائه می‌دهد. با استفاده از یودمی، کاربران می‌توانند به صورت انعطاف‌پذیر و بهینه، مهارت‌های جدیدی را یاد بگیرند و خود را برای بازار کار آماده کنند.

یکی از ویژگی‌های برجسته یودمی، کیفیت بالای دوره‌ها و حضور استادان مجرب و با تجربه در هر حوزه است. این امر به کاربران اعتماد می‌دهد که در حال دریافت آموزش از منابع قابل اعتماد و معتبر هستند و می‌توانند به بهترین شکل ممکن از آموزش‌ها بهره ببرند. به طور خلاصه، یودمی به عنوان یکی از معتبرترین و موثرترین پلتفرم‌های آموزشی آنلاین، به افراد امکان می‌دهد تا به راحتی و با کیفیت، مهارت‌های مورد نیاز خود را ارتقا دهند و به دنبال رشد و پیشرفت شغلی خود باشند.