دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش یادگیری تقویتی مدرن: الگوریتم های بازیگر-نقد

Modern Reinforcement Learning: Actor-Critic Algorithms

در حال بارگزاری نمونه ویدیو، لطفا صبر کنید...

Video Player is loading.

Current Time 0:00

Duration 0:00

Loaded: 0%

Stream Type LIVE

Remaining Time 0:00

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

در حال بارگزاری، لطفا صبر کنید...

توضیحات دوره: نحوه پیاده‌سازی مقالات تحقیقاتی پیشرفته هوش مصنوعی در ورزشگاه هوش مصنوعی باز با استفاده از چارچوب PyTorch نحوه کدنویسی روش‌های گرادیان خط‌مشی در PyTorch نحوه کدنویسی گرادیان‌های خط‌مشی قطعی عمیق (DDPG) در PyTorch نحوه کدنویسی گرادیان‌های خط‌مشی عمیق قطعی دوقلو (TD3) در PyTorch نحوه کدنویسی الگوریتم های منتقد بازیگر در PyTorch نحوه پیاده سازی مقالات تحقیقاتی هوش مصنوعی پیشرفته در پایتون

در این دوره آموزشی پیشرفته در زمینه یادگیری تقویتی عمیق، نحوه اجرای الگوریتم های گرادیان خط مشی، منتقد بازیگر، گرادیان خط مشی قطعی عمیق (DDPG)، گرادیان خط مشی قطعی عمیق دوقلو با تاخیر (TD3) و منتقد بازیگر نرم (SAC) را خواهید آموخت. در انواع محیط های چالش برانگیز از ورزشگاه Open AI. تمرکز زیادی بر روی برخورد با محیط‌هایی با فضاهای کنش مستمر خواهد بود، که برای کسانی که به دنبال تحقیق در مورد کنترل رباتیک با یادگیری تقویتی عمیق هستند، بسیار جالب است.

به‌جای اینکه دوره‌ای باشید که با قاشق به دانش‌آموز غذا می‌دهد، در اینجا می‌خواهید یاد بگیرید که مقالات تحقیقاتی یادگیری تقویتی عمیق را خودتان بخوانید و آنها را از ابتدا اجرا کنید. شما یک چارچوب قابل تکرار برای پیاده سازی سریع الگوریتم ها در مقالات تحقیقاتی پیشرفته را خواهید آموخت. تسلط بر محتوا در این دوره یک جهش کوانتومی در توانایی های شما به عنوان یک مهندس هوش مصنوعی خواهد بود و شما را در بین دانشجویانی قرار می دهد که برای تجزیه ایده های پیچیده به دیگران متکی هستند.

نترسید، اگر مدتی از آخرین دوره آموزشی تقویتی شما گذشته باشد، ما با مرور سریع موضوعات اصلی شروع خواهیم کرد.

این دوره با بررسی عملی اصول یادگیری تقویتی، از جمله موضوعاتی مانند:

شروع می‌شود.

معادله بلمن
فرایندهای تصمیم مارکوف
پیش‌بینی مونت کارلو
کنترل مونت کارلو
پیش‌بینی تفاوت زمانی TD(0)
کنترل تفاوت زمانی با یادگیری Q

و مستقیماً به سمت کدنویسی اولین عامل ما حرکت می کند: یک بلک جک که هوش مصنوعی بازی می کند. از آنجا به آموزش یک عامل برای متعادل کردن قطب سبد خرید با استفاده از یادگیری Q پیشرفت خواهیم کرد.

بعد از تسلط بر اصول، سرعت افزایش می‌یابد و مستقیماً وارد مقدمه‌ای بر روش‌های گرادیان خط‌مشی می‌شویم. ما الگوریتم REINFORCE را پوشش می‌دهیم و از آن برای آموزش فرود هوش مصنوعی روی ماه در محیط فرودگر ماه از ورزشگاه Open AI استفاده می‌کنیم. در ادامه به کدنویسی الگوریتم منتقد بازیگر یک مرحله‌ای پیش می‌رویم تا بار دیگر فرودگر ماه را شکست دهیم.

در حالی که اصول اولیه در راه نیست، به سمت پروژه‌های سخت‌تر خود می‌رویم: اجرای مقالات تحقیقاتی یادگیری تقویتی عمیق. ما با Deep Deterministic Policy Gradients (DDPG) شروع می کنیم، که الگوریتمی برای آموزش ربات ها برای برتری در انواع وظایف کنترل مداوم است. DDPG بسیاری از پیشرفت‌های Deep Q Learning را با روش‌های سنتی منتقد بازیگر ترکیب می‌کند تا در محیط‌هایی با فضاهای کنش پیوسته به بهترین نتایج دست یابد.

در مرحله بعد، یک الگوریتم هوش مصنوعی پیشرفته را پیاده‌سازی می‌کنیم: گرادیان‌های سیاست قطعی عمیق دوقلو (TD3) . این الگوریتم معیار جدیدی را برای عملکرد در وظایف کنترل مداوم روباتیک تعیین می کند و ما عملکرد کلاس جهانی را در محیط Bipedal Walker از ورزشگاه Open AI نشان خواهیم داد. TD3 مبتنی بر الگوریتم DDPG است، اما به تعدادی از مسائل تقریبی که منجر به عملکرد ضعیف در DDPG و سایر الگوریتم‌های منتقد بازیگر می‌شود، می‌پردازد.

در نهایت، الگوریتم منتقد بازیگر نرم (SAC) را پیاده سازی خواهیم کرد. SAC از زاویه ای کاملاً متفاوت به یادگیری تقویت عمیق می پردازد: با در نظر گرفتن حداکثر سازی آنتروپی، به جای حداکثر سازی امتیاز، به عنوان یک هدف قابل اجرا. این منجر به افزایش کاوش توسط نماینده ما و عملکرد کلاس جهانی در تعدادی از محیط‌های مهم Open AI Gym می‌شود.

در پایان دوره، پاسخ سوالات اساسی زیر را در روش های Actor-Critic خواهید دانست:

وقتی یادگیری عمیق Q بسیار موفق است، چرا باید با روش‌های منتقد بازیگر خود را به زحمت بیاندازیم؟
آیا می توان از پیشرفت های یادگیری عمیق Q در زمینه های دیگر یادگیری تقویتی استفاده کرد؟
چگونه می‌توانیم معضل کاوش- بهره‌برداری را با یک سیاست قطعی حل کنیم؟
چگونه سوگیری بیش از حد برآورد را در روش‌های منتقد بازیگر دریافت کنیم و با آن مقابله کنیم؟
چگونه با خطاهای تقریب ذاتی در شبکه های عصبی عمیق برخورد کنیم؟

این دوره برای دانش آموزان با انگیزه و پیشرفته است. برای موفقیت، باید در تمام موضوعات زیر کار دوره قبلی داشته باشید:

محاسبات سطح کالج
یادگیری تقویتی
یادگیری عمیق

سرعت دوره تند است و موضوعات در لبه برش تحقیقات یادگیری تقویتی عمیق قرار دارند، اما نتیجه این است که شما می دانید چگونه مقالات تحقیقاتی را بخوانید و آنها را در اسرع وقت به کد عملکردی تبدیل کنید. دیگر هرگز مجبور نخواهید بود به پست‌های وبلاگی متوسط و مبهم تکیه کنید.

سرفصل ها و درس ها

معرفی Introduction

آنچه در این دوره خواهید آموخت What You Will Learn in this Course
پیشینه، نرم افزار و سخت افزار مورد نیاز Required Background, Software, and Hardware
چگونه در این دوره موفق شویم How to Succeed in this Course

مبانی یادگیری تقویتی Fundamentals of Reinforcement Learning

مروری بر مفاهیم بنیادی Review of Fundamental Concepts
محاسبه احتمالات انتقال حالت Calculating State Transition Probabilities
آموزش هوش مصنوعی در مورد بلک جک با پیش بینی مونت کارلو Teaching an AI about Black Jack with Monte Carlo Prediction
آموزش هوش مصنوعی نحوه بازی بلک جک با کنترل مونت کارلو Teaching an AI How to Play Black Jack with Monte Carlo Control
مروری بر روش های یادگیری تفاوت زمانی Review of Temporal Difference Learning Methods
آموزش هوش مصنوعی در مورد تعادل با پیش بینی TD(0). Teaching an AI about Balance with TD(0) Prediction
آموزش هوش مصنوعی برای متعادل کردن قطب سبد خرید با یادگیری Q Teaching an AI to Balance the Cart Pole with Q Learning

فرود روی ماه با گرادیان های سیاست و روش های منتقد بازیگر Landing on the Moon with Policy Gradients & Actor Critic Methods

چه چیزی در مورد روش های گرادیان خط مشی عالی است؟ What's so Great About Policy Gradient Methods?
ترکیب شبکه های عصبی با مونت کارلو: الگوریتم گرادیان خط مشی را تقویت کنید Combining Neural Networks with Monte Carlo: REINFORCE Policy Gradient Algorithm
معرفی محیط کاوشگر قمری Introducing the Lunar Lander Environment
کدگذاری مغز عامل: شبکه گرادیان سیاست Coding the Agent's Brain: The Policy Gradient Network
کدگذاری عملکرد اصلی عامل گرادیان خط مشی Coding the Policy Gradient Agent's Basic Functionality
کدگذاری تابع یادگیری عامل Coding the Agent's Learn Function
کدگذاری حلقه اصلی گرادیان خط مشی و تماشای فرود عامل ما بر روی ماه Coding the Policy Gradient Main Loop and Watching our Agent Land on the Moon
یادگیری منتقد بازیگر: ترکیب گرادیان های خط مشی و یادگیری تفاوت زمانی Actor Critic Learning: Combining Policy Gradients & Temporal Difference Learning
کدگذاری شبکه های منتقد بازیگر Coding the Actor Critic Networks
کدنویسی عامل منتقد بازیگر Coding the Actor Critic Agent
کد نویسی حلقه اصلی منتقد بازیگر و تماشای فرود مامور ما روی ماه Coding the Actor Critic Main Loop and Watching Our Agent Land on the Moon

گرادیان های سیاست قطعی عمیق (DDPG): بازیگر منتقد با کنش های مستمر Deep Deterministic Policy Gradients (DDPG): Actor Critic with Continuous Actions

رسیدن به سرعت با یادگیری Deep Q Getting up to Speed With Deep Q Learning
نحوه خواندن و درک مقالات تحقیقاتی پیشرفته How to Read and Understand Cutting Edge Research Papers
تجزیه و تحلیل چکیده و مقدمه مقاله DDPG Analyzing the DDPG Paper Abstract and Introduction
تجزیه و تحلیل مواد پس زمینه Analyzing the Background Material
قرار است چه الگوریتمی را پیاده سازی کنیم؟ What Algorithm Are We Going to Implement?
چه نتایجی باید انتظار داشته باشیم؟ What Results Should We Expect?
چه راه حل های دیگری وجود دارد؟ What Other Solutions are Out There?
به چه معماری مدل و فراپارامترهایی نیاز داریم؟ What Model Architecture and Hyperparameters Do We Need?
مدیریت معضل Explore-Exploit: کدگذاری کلاس نویز عمل OU Handling the Explore-Exploit Dilemma: Coding the OU Action Noise Class
دادن حافظه به نماینده ما: کدگذاری کلاس بافر حافظه تکراری Giving our Agent a Memory: Coding the Replay Memory Buffer Class
یادگیری عمیق کیو برای روش های منتقد بازیگر: کدگذاری کلاس شبکه منتقد Deep Q Learning for Actor Critic Methods: Coding the Critic Network Class
کدگذاری کلاس شبکه بازیگر Coding the Actor Network Class
دادن استقلال ساده به نماینده DDPG: کدگذاری عملکردهای اساسی نماینده ما Giving our DDPG Agent Simple Autonomy: Coding the Basic Functions of Our Agent
دادن مغز به عامل DDPG: کدگذاری عملکرد یادگیری عامل Giving our DDPG Agent a Brain: Coding the Agent's Learn Function
کدگذاری عملکرد به روز رسانی پارامتر شبکه Coding the Network Parameter Update Functionality
کدگذاری حلقه اصلی و تماشای فرود مامور DDPG ما بر روی ماه Coding the Main Loop and Watching Our DDPG Agent Land on the Moon

دو شیب سیاست قطعی عمیق با تاخیر (TD3) Twin Delayed Deep Deterministic Policy Gradients (TD3)

چند نکته در مورد خواندن این مقاله Some Tips on Reading this Paper
تجزیه و تحلیل چکیده مقاله TD3 و مقدمه Analyzing the TD3 Paper Abstract and Introduction
مردم چه راه حل های دیگری را امتحان کرده اند؟ What Other Solutions Have People Tried?
مروری بر مفاهیم بنیادی Reviewing the Fundamental Concepts
آیا تعصب بیش از حد در روش‌های نقد بازیگر هم مشکل است؟ Is Overestimation Bias Even a Problem in Actor-Critic Methods?
چرا واریانس برای روش های منتقد بازیگر مشکل ساز است؟ Why is Variance a Problem for Actor-Critic Methods?
چه نتایجی می توانیم انتظار داشته باشیم؟ What Results Can We Expect?
کدگذاری مغزهای عامل TD3 - کلاس های شبکه بازیگر و منتقد Coding the Brains of the TD3 Agent - The Actor and Critic Network Classes
دادن استقلال ساده به عامل TD3 - کدگذاری عملکرد عامل اصلی Giving our TD3 Agent Simple Autonomy - Coding the Basic Agent Functionality
دادن مغز به عامل TD3 ما - کدگذاری عملکرد یادگیری Giving our TD3 Agent a Brain - Coding the Learn Function
کدگذاری عملکرد به روز رسانی پارامتر شبکه Coding the Network Parameter Update Functionality
کدگذاری حلقه اصلی و تماشای نماینده ما در حال یادگیری راه رفتن Coding the Main Loop And Watching our Agent Learn to Walk

منتقد بازیگر نرم Soft Actor Critic

یک کلمه سریع روی کاغذ A Quick Word on the Paper
آشنایی با یک چارچوب جدید Getting Acquainted With a New Framework
بررسی آنچه قبلا انجام شده است Checking Out What Has Been Done Before
بازرسی بنیاد این چارچوب جدید Inspecting the Foundation of this New Framework
کاوش در ریاضیات منتقد بازیگر نرم Digging Into the Mathematics of Soft Actor Critic
مشاهده نحوه اندازه گیری الگوریتم جدید Seeing How the New Algorithm Measures Up
کدگذاری شبکه های عصبی Coding the Neural Networks
کدگذاری Soft Actor Critic Basic Functional Coding the Soft Actor Critic Basic Functionality
کدگذاری الگوریتم منتقد بازیگر نرم Coding the Soft Actor Critic Algorithm
کدگذاری حلقه اصلی و ارزیابی نماینده ما Coding the Main Loop and Evaluating Our Agent

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش یادگیری تقویتی مدرن: الگوریتم های بازیگر-نقد

جزییات دوره

زمان دوره: 8 hours

تعداد ویدیو ها: 58

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 2,574

امتیاز مرجع: 4.7 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Phil Tabor

لینک کوتاه این دوره

https://donyad.com/d/7d8d08

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

دنیاد

آموزش یادگیری تقویتی مدرن: الگوریتم های بازیگر-نقد

Modern Reinforcement Learning: Actor-Critic Algorithms

معرفی Introduction

آنچه در این دوره خواهید آموخت What You Will Learn in this Course

پیشینه، نرم افزار و سخت افزار مورد نیاز Required Background, Software, and Hardware

چگونه در این دوره موفق شویم How to Succeed in this Course

مبانی یادگیری تقویتی Fundamentals of Reinforcement Learning

مروری بر مفاهیم بنیادی Review of Fundamental Concepts

محاسبه احتمالات انتقال حالت Calculating State Transition Probabilities

آموزش هوش مصنوعی در مورد بلک جک با پیش بینی مونت کارلو Teaching an AI about Black Jack with Monte Carlo Prediction

آموزش هوش مصنوعی نحوه بازی بلک جک با کنترل مونت کارلو Teaching an AI How to Play Black Jack with Monte Carlo Control

مروری بر روش های یادگیری تفاوت زمانی Review of Temporal Difference Learning Methods

آموزش هوش مصنوعی در مورد تعادل با پیش بینی TD(0). Teaching an AI about Balance with TD(0) Prediction

آموزش هوش مصنوعی برای متعادل کردن قطب سبد خرید با یادگیری Q Teaching an AI to Balance the Cart Pole with Q Learning

فرود روی ماه با گرادیان های سیاست و روش های منتقد بازیگر Landing on the Moon with Policy Gradients & Actor Critic Methods

چه چیزی در مورد روش های گرادیان خط مشی عالی است؟ What's so Great About Policy Gradient Methods?

ترکیب شبکه های عصبی با مونت کارلو: الگوریتم گرادیان خط مشی را تقویت کنید Combining Neural Networks with Monte Carlo: REINFORCE Policy Gradient Algorithm

معرفی محیط کاوشگر قمری Introducing the Lunar Lander Environment

کدگذاری مغز عامل: شبکه گرادیان سیاست Coding the Agent's Brain: The Policy Gradient Network

کدگذاری عملکرد اصلی عامل گرادیان خط مشی Coding the Policy Gradient Agent's Basic Functionality

کدگذاری تابع یادگیری عامل Coding the Agent's Learn Function

کدگذاری حلقه اصلی گرادیان خط مشی و تماشای فرود عامل ما بر روی ماه Coding the Policy Gradient Main Loop and Watching our Agent Land on the Moon

یادگیری منتقد بازیگر: ترکیب گرادیان های خط مشی و یادگیری تفاوت زمانی Actor Critic Learning: Combining Policy Gradients & Temporal Difference Learning

کدگذاری شبکه های منتقد بازیگر Coding the Actor Critic Networks

کدنویسی عامل منتقد بازیگر Coding the Actor Critic Agent

کد نویسی حلقه اصلی منتقد بازیگر و تماشای فرود مامور ما روی ماه Coding the Actor Critic Main Loop and Watching Our Agent Land on the Moon

گرادیان های سیاست قطعی عمیق (DDPG): بازیگر منتقد با کنش های مستمر Deep Deterministic Policy Gradients (DDPG): Actor Critic with Continuous Actions

رسیدن به سرعت با یادگیری Deep Q Getting up to Speed With Deep Q Learning

نحوه خواندن و درک مقالات تحقیقاتی پیشرفته How to Read and Understand Cutting Edge Research Papers

تجزیه و تحلیل چکیده و مقدمه مقاله DDPG Analyzing the DDPG Paper Abstract and Introduction

تجزیه و تحلیل مواد پس زمینه Analyzing the Background Material

قرار است چه الگوریتمی را پیاده سازی کنیم؟ What Algorithm Are We Going to Implement?

چه نتایجی باید انتظار داشته باشیم؟ What Results Should We Expect?

چه راه حل های دیگری وجود دارد؟ What Other Solutions are Out There?

به چه معماری مدل و فراپارامترهایی نیاز داریم؟ What Model Architecture and Hyperparameters Do We Need?

مدیریت معضل Explore-Exploit: کدگذاری کلاس نویز عمل OU Handling the Explore-Exploit Dilemma: Coding the OU Action Noise Class

دادن حافظه به نماینده ما: کدگذاری کلاس بافر حافظه تکراری Giving our Agent a Memory: Coding the Replay Memory Buffer Class

یادگیری عمیق کیو برای روش های منتقد بازیگر: کدگذاری کلاس شبکه منتقد Deep Q Learning for Actor Critic Methods: Coding the Critic Network Class

کدگذاری کلاس شبکه بازیگر Coding the Actor Network Class

دادن استقلال ساده به نماینده DDPG: کدگذاری عملکردهای اساسی نماینده ما Giving our DDPG Agent Simple Autonomy: Coding the Basic Functions of Our Agent

دادن مغز به عامل DDPG: کدگذاری عملکرد یادگیری عامل Giving our DDPG Agent a Brain: Coding the Agent's Learn Function

کدگذاری عملکرد به روز رسانی پارامتر شبکه Coding the Network Parameter Update Functionality

کدگذاری حلقه اصلی و تماشای فرود مامور DDPG ما بر روی ماه Coding the Main Loop and Watching Our DDPG Agent Land on the Moon

دو شیب سیاست قطعی عمیق با تاخیر (TD3) Twin Delayed Deep Deterministic Policy Gradients (TD3)

چند نکته در مورد خواندن این مقاله Some Tips on Reading this Paper

تجزیه و تحلیل چکیده مقاله TD3 و مقدمه Analyzing the TD3 Paper Abstract and Introduction

مردم چه راه حل های دیگری را امتحان کرده اند؟ What Other Solutions Have People Tried?

مروری بر مفاهیم بنیادی Reviewing the Fundamental Concepts

آیا تعصب بیش از حد در روش‌های نقد بازیگر هم مشکل است؟ Is Overestimation Bias Even a Problem in Actor-Critic Methods?

چرا واریانس برای روش های منتقد بازیگر مشکل ساز است؟ Why is Variance a Problem for Actor-Critic Methods?

چه نتایجی می توانیم انتظار داشته باشیم؟ What Results Can We Expect?

کدگذاری مغزهای عامل TD3 - کلاس های شبکه بازیگر و منتقد Coding the Brains of the TD3 Agent - The Actor and Critic Network Classes

دادن استقلال ساده به عامل TD3 - کدگذاری عملکرد عامل اصلی Giving our TD3 Agent Simple Autonomy - Coding the Basic Agent Functionality

دادن مغز به عامل TD3 ما - کدگذاری عملکرد یادگیری Giving our TD3 Agent a Brain - Coding the Learn Function

کدگذاری عملکرد به روز رسانی پارامتر شبکه Coding the Network Parameter Update Functionality

کدگذاری حلقه اصلی و تماشای نماینده ما در حال یادگیری راه رفتن Coding the Main Loop And Watching our Agent Learn to Walk

منتقد بازیگر نرم Soft Actor Critic

یک کلمه سریع روی کاغذ A Quick Word on the Paper

آشنایی با یک چارچوب جدید Getting Acquainted With a New Framework

بررسی آنچه قبلا انجام شده است Checking Out What Has Been Done Before

بازرسی بنیاد این چارچوب جدید Inspecting the Foundation of this New Framework

کاوش در ریاضیات منتقد بازیگر نرم Digging Into the Mathematics of Soft Actor Critic

مشاهده نحوه اندازه گیری الگوریتم جدید Seeing How the New Algorithm Measures Up

کدگذاری شبکه های عصبی Coding the Neural Networks

کدگذاری Soft Actor Critic Basic Functional Coding the Soft Actor Critic Basic Functionality

کدگذاری الگوریتم منتقد بازیگر نرم Coding the Soft Actor Critic Algorithm

کدگذاری حلقه اصلی و ارزیابی نماینده ما Coding the Main Loop and Evaluating Our Agent

نمایش نظرات

https://donyad.com/d/7d8d08