آموزش یادگیری تقویتی مدرن: الگوریتم های بازیگر-نقد

Modern Reinforcement Learning: Actor-Critic Algorithms

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: نحوه پیاده‌سازی مقالات تحقیقاتی پیشرفته هوش مصنوعی در ورزشگاه هوش مصنوعی باز با استفاده از چارچوب PyTorch نحوه کدنویسی روش‌های گرادیان خط‌مشی در PyTorch نحوه کدنویسی گرادیان‌های خط‌مشی قطعی عمیق (DDPG) در PyTorch نحوه کدنویسی گرادیان‌های خط‌مشی عمیق قطعی دوقلو (TD3) در PyTorch نحوه کدنویسی الگوریتم های منتقد بازیگر در PyTorch نحوه پیاده سازی مقالات تحقیقاتی هوش مصنوعی پیشرفته در پایتون

در این دوره آموزشی پیشرفته در زمینه یادگیری تقویتی عمیق، نحوه اجرای الگوریتم های گرادیان خط مشی، منتقد بازیگر، گرادیان خط مشی قطعی عمیق (DDPG)، گرادیان خط مشی قطعی عمیق دوقلو با تاخیر (TD3) و منتقد بازیگر نرم (SAC) را خواهید آموخت. در انواع محیط های چالش برانگیز از ورزشگاه Open AI. تمرکز زیادی بر روی برخورد با محیط‌هایی با فضاهای کنش مستمر خواهد بود، که برای کسانی که به دنبال تحقیق در مورد کنترل رباتیک با یادگیری تقویتی عمیق هستند، بسیار جالب است.

به‌جای اینکه دوره‌ای باشید که با قاشق به دانش‌آموز غذا می‌دهد، در اینجا می‌خواهید یاد بگیرید که مقالات تحقیقاتی یادگیری تقویتی عمیق را خودتان بخوانید و آنها را از ابتدا اجرا کنید. شما یک چارچوب قابل تکرار برای پیاده سازی سریع الگوریتم ها در مقالات تحقیقاتی پیشرفته را خواهید آموخت. تسلط بر محتوا در این دوره یک جهش کوانتومی در توانایی های شما به عنوان یک مهندس هوش مصنوعی خواهد بود و شما را در بین دانشجویانی قرار می دهد که برای تجزیه ایده های پیچیده به دیگران متکی هستند.

نترسید، اگر مدتی از آخرین دوره آموزشی تقویتی شما گذشته باشد، ما با مرور سریع موضوعات اصلی شروع خواهیم کرد.

این دوره با بررسی عملی اصول یادگیری تقویتی، از جمله موضوعاتی مانند:

شروع می‌شود.
  • معادله بلمن

  • فرایندهای تصمیم مارکوف

  • پیش‌بینی مونت کارلو

  • کنترل مونت کارلو

  • پیش‌بینی تفاوت زمانی TD(0)

  • کنترل تفاوت زمانی با یادگیری Q

و مستقیماً به سمت کدنویسی اولین عامل ما حرکت می کند: یک بلک جک که هوش مصنوعی بازی می کند. از آنجا به آموزش یک عامل برای متعادل کردن قطب سبد خرید با استفاده از یادگیری Q پیشرفت خواهیم کرد.

بعد از تسلط بر اصول، سرعت افزایش می‌یابد و مستقیماً وارد مقدمه‌ای بر روش‌های گرادیان خط‌مشی می‌شویم. ما الگوریتم REINFORCE را پوشش می‌دهیم و از آن برای آموزش فرود هوش مصنوعی روی ماه در محیط فرودگر ماه از ورزشگاه Open AI استفاده می‌کنیم. در ادامه به کدنویسی الگوریتم منتقد بازیگر یک مرحله‌ای پیش می‌رویم تا بار دیگر فرودگر ماه را شکست دهیم.

در حالی که اصول اولیه در راه نیست، به سمت پروژه‌های سخت‌تر خود می‌رویم: اجرای مقالات تحقیقاتی یادگیری تقویتی عمیق. ما با Deep Deterministic Policy Gradients (DDPG) شروع می کنیم، که الگوریتمی برای آموزش ربات ها برای برتری در انواع وظایف کنترل مداوم است. DDPG بسیاری از پیشرفت‌های Deep Q Learning را با روش‌های سنتی منتقد بازیگر ترکیب می‌کند تا در محیط‌هایی با فضاهای کنش پیوسته به بهترین نتایج دست یابد.

در مرحله بعد، یک الگوریتم هوش مصنوعی پیشرفته را پیاده‌سازی می‌کنیم: گرادیان‌های سیاست قطعی عمیق دوقلو (TD3) . این الگوریتم معیار جدیدی را برای عملکرد در وظایف کنترل مداوم روباتیک تعیین می کند و ما عملکرد کلاس جهانی را در محیط Bipedal Walker از ورزشگاه Open AI نشان خواهیم داد. TD3 مبتنی بر الگوریتم DDPG است، اما به تعدادی از مسائل تقریبی که منجر به عملکرد ضعیف در DDPG و سایر الگوریتم‌های منتقد بازیگر می‌شود، می‌پردازد.

در نهایت، الگوریتم منتقد بازیگر نرم (SAC) را پیاده سازی خواهیم کرد. SAC از زاویه ای کاملاً متفاوت به یادگیری تقویت عمیق می پردازد: با در نظر گرفتن حداکثر سازی آنتروپی، به جای حداکثر سازی امتیاز، به عنوان یک هدف قابل اجرا. این منجر به افزایش کاوش توسط نماینده ما و عملکرد کلاس جهانی در تعدادی از محیط‌های مهم Open AI Gym می‌شود.

در پایان دوره، پاسخ سوالات اساسی زیر را در روش های Actor-Critic خواهید دانست:

  • وقتی یادگیری عمیق Q بسیار موفق است، چرا باید با روش‌های منتقد بازیگر خود را به زحمت بیاندازیم؟

  • آیا می توان از پیشرفت های یادگیری عمیق Q در زمینه های دیگر یادگیری تقویتی استفاده کرد؟

  • چگونه می‌توانیم معضل کاوش- بهره‌برداری را با یک سیاست قطعی حل کنیم؟

  • چگونه سوگیری بیش از حد برآورد را در روش‌های منتقد بازیگر دریافت کنیم و با آن مقابله کنیم؟

  • چگونه با خطاهای تقریب ذاتی در شبکه های عصبی عمیق برخورد کنیم؟

این دوره برای دانش آموزان با انگیزه و پیشرفته است. برای موفقیت، باید در تمام موضوعات زیر کار دوره قبلی داشته باشید:

  • محاسبات سطح کالج

  • یادگیری تقویتی

  • یادگیری عمیق

سرعت دوره تند است و موضوعات در لبه برش تحقیقات یادگیری تقویتی عمیق قرار دارند، اما نتیجه این است که شما می دانید چگونه مقالات تحقیقاتی را بخوانید و آنها را در اسرع وقت به کد عملکردی تبدیل کنید. دیگر هرگز مجبور نخواهید بود به پست‌های وبلاگی متوسط ​​و مبهم تکیه کنید.


سرفصل ها و درس ها

معرفی Introduction

  • آنچه در این دوره خواهید آموخت What You Will Learn in this Course

  • پیشینه، نرم افزار و سخت افزار مورد نیاز Required Background, Software, and Hardware

  • چگونه در این دوره موفق شویم How to Succeed in this Course

مبانی یادگیری تقویتی Fundamentals of Reinforcement Learning

  • مروری بر مفاهیم بنیادی Review of Fundamental Concepts

  • محاسبه احتمالات انتقال حالت Calculating State Transition Probabilities

  • آموزش هوش مصنوعی در مورد بلک جک با پیش بینی مونت کارلو Teaching an AI about Black Jack with Monte Carlo Prediction

  • آموزش هوش مصنوعی نحوه بازی بلک جک با کنترل مونت کارلو Teaching an AI How to Play Black Jack with Monte Carlo Control

  • مروری بر روش های یادگیری تفاوت زمانی Review of Temporal Difference Learning Methods

  • آموزش هوش مصنوعی در مورد تعادل با پیش بینی TD(0). Teaching an AI about Balance with TD(0) Prediction

  • آموزش هوش مصنوعی برای متعادل کردن قطب سبد خرید با یادگیری Q Teaching an AI to Balance the Cart Pole with Q Learning

فرود روی ماه با گرادیان های سیاست و روش های منتقد بازیگر Landing on the Moon with Policy Gradients & Actor Critic Methods

  • چه چیزی در مورد روش های گرادیان خط مشی عالی است؟ What's so Great About Policy Gradient Methods?

  • ترکیب شبکه های عصبی با مونت کارلو: الگوریتم گرادیان خط مشی را تقویت کنید Combining Neural Networks with Monte Carlo: REINFORCE Policy Gradient Algorithm

  • معرفی محیط کاوشگر قمری Introducing the Lunar Lander Environment

  • کدگذاری مغز عامل: شبکه گرادیان سیاست Coding the Agent's Brain: The Policy Gradient Network

  • کدگذاری عملکرد اصلی عامل گرادیان خط مشی Coding the Policy Gradient Agent's Basic Functionality

  • کدگذاری تابع یادگیری عامل Coding the Agent's Learn Function

  • کدگذاری حلقه اصلی گرادیان خط مشی و تماشای فرود عامل ما بر روی ماه Coding the Policy Gradient Main Loop and Watching our Agent Land on the Moon

  • یادگیری منتقد بازیگر: ترکیب گرادیان های خط مشی و یادگیری تفاوت زمانی Actor Critic Learning: Combining Policy Gradients & Temporal Difference Learning

  • کدگذاری شبکه های منتقد بازیگر Coding the Actor Critic Networks

  • کدنویسی عامل منتقد بازیگر Coding the Actor Critic Agent

  • کد نویسی حلقه اصلی منتقد بازیگر و تماشای فرود مامور ما روی ماه Coding the Actor Critic Main Loop and Watching Our Agent Land on the Moon

گرادیان های سیاست قطعی عمیق (DDPG): بازیگر منتقد با کنش های مستمر Deep Deterministic Policy Gradients (DDPG): Actor Critic with Continuous Actions

  • رسیدن به سرعت با یادگیری Deep Q Getting up to Speed With Deep Q Learning

  • نحوه خواندن و درک مقالات تحقیقاتی پیشرفته How to Read and Understand Cutting Edge Research Papers

  • تجزیه و تحلیل چکیده و مقدمه مقاله DDPG Analyzing the DDPG Paper Abstract and Introduction

  • تجزیه و تحلیل مواد پس زمینه Analyzing the Background Material

  • قرار است چه الگوریتمی را پیاده سازی کنیم؟ What Algorithm Are We Going to Implement?

  • چه نتایجی باید انتظار داشته باشیم؟ What Results Should We Expect?

  • چه راه حل های دیگری وجود دارد؟ What Other Solutions are Out There?

  • به چه معماری مدل و فراپارامترهایی نیاز داریم؟ What Model Architecture and Hyperparameters Do We Need?

  • مدیریت معضل Explore-Exploit: کدگذاری کلاس نویز عمل OU Handling the Explore-Exploit Dilemma: Coding the OU Action Noise Class

  • دادن حافظه به نماینده ما: کدگذاری کلاس بافر حافظه تکراری Giving our Agent a Memory: Coding the Replay Memory Buffer Class

  • یادگیری عمیق کیو برای روش های منتقد بازیگر: کدگذاری کلاس شبکه منتقد Deep Q Learning for Actor Critic Methods: Coding the Critic Network Class

  • کدگذاری کلاس شبکه بازیگر Coding the Actor Network Class

  • دادن استقلال ساده به نماینده DDPG: کدگذاری عملکردهای اساسی نماینده ما Giving our DDPG Agent Simple Autonomy: Coding the Basic Functions of Our Agent

  • دادن مغز به عامل DDPG: کدگذاری عملکرد یادگیری عامل Giving our DDPG Agent a Brain: Coding the Agent's Learn Function

  • کدگذاری عملکرد به روز رسانی پارامتر شبکه Coding the Network Parameter Update Functionality

  • کدگذاری حلقه اصلی و تماشای فرود مامور DDPG ما بر روی ماه Coding the Main Loop and Watching Our DDPG Agent Land on the Moon

دو شیب سیاست قطعی عمیق با تاخیر (TD3) Twin Delayed Deep Deterministic Policy Gradients (TD3)

  • چند نکته در مورد خواندن این مقاله Some Tips on Reading this Paper

  • تجزیه و تحلیل چکیده مقاله TD3 و مقدمه Analyzing the TD3 Paper Abstract and Introduction

  • مردم چه راه حل های دیگری را امتحان کرده اند؟ What Other Solutions Have People Tried?

  • مروری بر مفاهیم بنیادی Reviewing the Fundamental Concepts

  • آیا تعصب بیش از حد در روش‌های نقد بازیگر هم مشکل است؟ Is Overestimation Bias Even a Problem in Actor-Critic Methods?

  • چرا واریانس برای روش های منتقد بازیگر مشکل ساز است؟ Why is Variance a Problem for Actor-Critic Methods?

  • چه نتایجی می توانیم انتظار داشته باشیم؟ What Results Can We Expect?

  • کدگذاری مغزهای عامل TD3 - کلاس های شبکه بازیگر و منتقد Coding the Brains of the TD3 Agent - The Actor and Critic Network Classes

  • دادن استقلال ساده به عامل TD3 - کدگذاری عملکرد عامل اصلی Giving our TD3 Agent Simple Autonomy - Coding the Basic Agent Functionality

  • دادن مغز به عامل TD3 ما - کدگذاری عملکرد یادگیری Giving our TD3 Agent a Brain - Coding the Learn Function

  • کدگذاری عملکرد به روز رسانی پارامتر شبکه Coding the Network Parameter Update Functionality

  • کدگذاری حلقه اصلی و تماشای نماینده ما در حال یادگیری راه رفتن Coding the Main Loop And Watching our Agent Learn to Walk

منتقد بازیگر نرم Soft Actor Critic

  • یک کلمه سریع روی کاغذ A Quick Word on the Paper

  • آشنایی با یک چارچوب جدید Getting Acquainted With a New Framework

  • بررسی آنچه قبلا انجام شده است Checking Out What Has Been Done Before

  • بازرسی بنیاد این چارچوب جدید Inspecting the Foundation of this New Framework

  • کاوش در ریاضیات منتقد بازیگر نرم Digging Into the Mathematics of Soft Actor Critic

  • مشاهده نحوه اندازه گیری الگوریتم جدید Seeing How the New Algorithm Measures Up

  • کدگذاری شبکه های عصبی Coding the Neural Networks

  • کدگذاری Soft Actor Critic Basic Functional Coding the Soft Actor Critic Basic Functionality

  • کدگذاری الگوریتم منتقد بازیگر نرم Coding the Soft Actor Critic Algorithm

  • کدگذاری حلقه اصلی و ارزیابی نماینده ما Coding the Main Loop and Evaluating Our Agent

نمایش نظرات

آموزش یادگیری تقویتی مدرن: الگوریتم های بازیگر-نقد
جزییات دوره
8 hours
58
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
2,574
4.7 از 5
دارد
دارد
دارد
Phil Tabor
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Phil Tabor Phil Tabor

مهندس یادگیری ماشین