لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش یادگیری تقویتی مدرن: الگوریتم های بازیگر-نقد
Modern Reinforcement Learning: Actor-Critic Algorithms
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
نحوه پیادهسازی مقالات تحقیقاتی پیشرفته هوش مصنوعی در ورزشگاه هوش مصنوعی باز با استفاده از چارچوب PyTorch نحوه کدنویسی روشهای گرادیان خطمشی در PyTorch نحوه کدنویسی گرادیانهای خطمشی قطعی عمیق (DDPG) در PyTorch نحوه کدنویسی گرادیانهای خطمشی عمیق قطعی دوقلو (TD3) در PyTorch نحوه کدنویسی الگوریتم های منتقد بازیگر در PyTorch نحوه پیاده سازی مقالات تحقیقاتی هوش مصنوعی پیشرفته در پایتون
در این دوره آموزشی پیشرفته در زمینه یادگیری تقویتی عمیق، نحوه اجرای الگوریتم های گرادیان خط مشی، منتقد بازیگر، گرادیان خط مشی قطعی عمیق (DDPG)، گرادیان خط مشی قطعی عمیق دوقلو با تاخیر (TD3) و منتقد بازیگر نرم (SAC) را خواهید آموخت. در انواع محیط های چالش برانگیز از ورزشگاه Open AI. تمرکز زیادی بر روی برخورد با محیطهایی با فضاهای کنش مستمر خواهد بود، که برای کسانی که به دنبال تحقیق در مورد کنترل رباتیک با یادگیری تقویتی عمیق هستند، بسیار جالب است.
بهجای اینکه دورهای باشید که با قاشق به دانشآموز غذا میدهد، در اینجا میخواهید یاد بگیرید که مقالات تحقیقاتی یادگیری تقویتی عمیق را خودتان بخوانید و آنها را از ابتدا اجرا کنید. شما یک چارچوب قابل تکرار برای پیاده سازی سریع الگوریتم ها در مقالات تحقیقاتی پیشرفته را خواهید آموخت. تسلط بر محتوا در این دوره یک جهش کوانتومی در توانایی های شما به عنوان یک مهندس هوش مصنوعی خواهد بود و شما را در بین دانشجویانی قرار می دهد که برای تجزیه ایده های پیچیده به دیگران متکی هستند.
نترسید، اگر مدتی از آخرین دوره آموزشی تقویتی شما گذشته باشد، ما با مرور سریع موضوعات اصلی شروع خواهیم کرد.
این دوره با بررسی عملی اصول یادگیری تقویتی، از جمله موضوعاتی مانند:
شروع میشود.
معادله بلمن
فرایندهای تصمیم مارکوف
پیشبینی مونت کارلو
کنترل مونت کارلو
پیشبینی تفاوت زمانی TD(0)
کنترل تفاوت زمانی با یادگیری Q
و مستقیماً به سمت کدنویسی اولین عامل ما حرکت می کند: یک بلک جک که هوش مصنوعی بازی می کند. از آنجا به آموزش یک عامل برای متعادل کردن قطب سبد خرید با استفاده از یادگیری Q پیشرفت خواهیم کرد.
بعد از تسلط بر اصول، سرعت افزایش مییابد و مستقیماً وارد مقدمهای بر روشهای گرادیان خطمشی میشویم. ما الگوریتم REINFORCE را پوشش میدهیم و از آن برای آموزش فرود هوش مصنوعی روی ماه در محیط فرودگر ماه از ورزشگاه Open AI استفاده میکنیم. در ادامه به کدنویسی الگوریتم منتقد بازیگر یک مرحلهای پیش میرویم تا بار دیگر فرودگر ماه را شکست دهیم.
در حالی که اصول اولیه در راه نیست، به سمت پروژههای سختتر خود میرویم: اجرای مقالات تحقیقاتی یادگیری تقویتی عمیق. ما با Deep Deterministic Policy Gradients (DDPG) شروع می کنیم، که الگوریتمی برای آموزش ربات ها برای برتری در انواع وظایف کنترل مداوم است. DDPG بسیاری از پیشرفتهای Deep Q Learning را با روشهای سنتی منتقد بازیگر ترکیب میکند تا در محیطهایی با فضاهای کنش پیوسته به بهترین نتایج دست یابد.
در مرحله بعد، یک الگوریتم هوش مصنوعی پیشرفته را پیادهسازی میکنیم: گرادیانهای سیاست قطعی عمیق دوقلو (TD3) . این الگوریتم معیار جدیدی را برای عملکرد در وظایف کنترل مداوم روباتیک تعیین می کند و ما عملکرد کلاس جهانی را در محیط Bipedal Walker از ورزشگاه Open AI نشان خواهیم داد. TD3 مبتنی بر الگوریتم DDPG است، اما به تعدادی از مسائل تقریبی که منجر به عملکرد ضعیف در DDPG و سایر الگوریتمهای منتقد بازیگر میشود، میپردازد.
در نهایت، الگوریتم منتقد بازیگر نرم (SAC) را پیاده سازی خواهیم کرد. SAC از زاویه ای کاملاً متفاوت به یادگیری تقویت عمیق می پردازد: با در نظر گرفتن حداکثر سازی آنتروپی، به جای حداکثر سازی امتیاز، به عنوان یک هدف قابل اجرا. این منجر به افزایش کاوش توسط نماینده ما و عملکرد کلاس جهانی در تعدادی از محیطهای مهم Open AI Gym میشود.
در پایان دوره، پاسخ سوالات اساسی زیر را در روش های Actor-Critic خواهید دانست:
وقتی یادگیری عمیق Q بسیار موفق است، چرا باید با روشهای منتقد بازیگر خود را به زحمت بیاندازیم؟
آیا می توان از پیشرفت های یادگیری عمیق Q در زمینه های دیگر یادگیری تقویتی استفاده کرد؟
چگونه میتوانیم معضل کاوش- بهرهبرداری را با یک سیاست قطعی حل کنیم؟
چگونه سوگیری بیش از حد برآورد را در روشهای منتقد بازیگر دریافت کنیم و با آن مقابله کنیم؟
چگونه با خطاهای تقریب ذاتی در شبکه های عصبی عمیق برخورد کنیم؟
این دوره برای دانش آموزان با انگیزه و پیشرفته است. برای موفقیت، باید در تمام موضوعات زیر کار دوره قبلی داشته باشید:
محاسبات سطح کالج
یادگیری تقویتی
یادگیری عمیق
سرعت دوره تند است و موضوعات در لبه برش تحقیقات یادگیری تقویتی عمیق قرار دارند، اما نتیجه این است که شما می دانید چگونه مقالات تحقیقاتی را بخوانید و آنها را در اسرع وقت به کد عملکردی تبدیل کنید. دیگر هرگز مجبور نخواهید بود به پستهای وبلاگی متوسط و مبهم تکیه کنید.
سرفصل ها و درس ها
معرفی
Introduction
آنچه در این دوره خواهید آموخت
What You Will Learn in this Course
پیشینه، نرم افزار و سخت افزار مورد نیاز
Required Background, Software, and Hardware
چگونه در این دوره موفق شویم
How to Succeed in this Course
مبانی یادگیری تقویتی
Fundamentals of Reinforcement Learning
مروری بر مفاهیم بنیادی
Review of Fundamental Concepts
محاسبه احتمالات انتقال حالت
Calculating State Transition Probabilities
آموزش هوش مصنوعی در مورد بلک جک با پیش بینی مونت کارلو
Teaching an AI about Black Jack with Monte Carlo Prediction
آموزش هوش مصنوعی نحوه بازی بلک جک با کنترل مونت کارلو
Teaching an AI How to Play Black Jack with Monte Carlo Control
مروری بر روش های یادگیری تفاوت زمانی
Review of Temporal Difference Learning Methods
آموزش هوش مصنوعی در مورد تعادل با پیش بینی TD(0).
Teaching an AI about Balance with TD(0) Prediction
آموزش هوش مصنوعی برای متعادل کردن قطب سبد خرید با یادگیری Q
Teaching an AI to Balance the Cart Pole with Q Learning
فرود روی ماه با گرادیان های سیاست و روش های منتقد بازیگر
Landing on the Moon with Policy Gradients & Actor Critic Methods
چه چیزی در مورد روش های گرادیان خط مشی عالی است؟
What's so Great About Policy Gradient Methods?
ترکیب شبکه های عصبی با مونت کارلو: الگوریتم گرادیان خط مشی را تقویت کنید
Combining Neural Networks with Monte Carlo: REINFORCE Policy Gradient Algorithm
معرفی محیط کاوشگر قمری
Introducing the Lunar Lander Environment
کدگذاری مغز عامل: شبکه گرادیان سیاست
Coding the Agent's Brain: The Policy Gradient Network
کدگذاری عملکرد اصلی عامل گرادیان خط مشی
Coding the Policy Gradient Agent's Basic Functionality
کدگذاری تابع یادگیری عامل
Coding the Agent's Learn Function
کدگذاری حلقه اصلی گرادیان خط مشی و تماشای فرود عامل ما بر روی ماه
Coding the Policy Gradient Main Loop and Watching our Agent Land on the Moon
یادگیری منتقد بازیگر: ترکیب گرادیان های خط مشی و یادگیری تفاوت زمانی
Actor Critic Learning: Combining Policy Gradients & Temporal Difference Learning
کدگذاری شبکه های منتقد بازیگر
Coding the Actor Critic Networks
کدنویسی عامل منتقد بازیگر
Coding the Actor Critic Agent
کد نویسی حلقه اصلی منتقد بازیگر و تماشای فرود مامور ما روی ماه
Coding the Actor Critic Main Loop and Watching Our Agent Land on the Moon
گرادیان های سیاست قطعی عمیق (DDPG): بازیگر منتقد با کنش های مستمر
Deep Deterministic Policy Gradients (DDPG): Actor Critic with Continuous Actions
رسیدن به سرعت با یادگیری Deep Q
Getting up to Speed With Deep Q Learning
نحوه خواندن و درک مقالات تحقیقاتی پیشرفته
How to Read and Understand Cutting Edge Research Papers
تجزیه و تحلیل چکیده و مقدمه مقاله DDPG
Analyzing the DDPG Paper Abstract and Introduction
تجزیه و تحلیل مواد پس زمینه
Analyzing the Background Material
قرار است چه الگوریتمی را پیاده سازی کنیم؟
What Algorithm Are We Going to Implement?
چه نتایجی باید انتظار داشته باشیم؟
What Results Should We Expect?
چه راه حل های دیگری وجود دارد؟
What Other Solutions are Out There?
به چه معماری مدل و فراپارامترهایی نیاز داریم؟
What Model Architecture and Hyperparameters Do We Need?
مدیریت معضل Explore-Exploit: کدگذاری کلاس نویز عمل OU
Handling the Explore-Exploit Dilemma: Coding the OU Action Noise Class
دادن حافظه به نماینده ما: کدگذاری کلاس بافر حافظه تکراری
Giving our Agent a Memory: Coding the Replay Memory Buffer Class
یادگیری عمیق کیو برای روش های منتقد بازیگر: کدگذاری کلاس شبکه منتقد
Deep Q Learning for Actor Critic Methods: Coding the Critic Network Class
کدگذاری کلاس شبکه بازیگر
Coding the Actor Network Class
دادن استقلال ساده به نماینده DDPG: کدگذاری عملکردهای اساسی نماینده ما
Giving our DDPG Agent Simple Autonomy: Coding the Basic Functions of Our Agent
دادن مغز به عامل DDPG: کدگذاری عملکرد یادگیری عامل
Giving our DDPG Agent a Brain: Coding the Agent's Learn Function
کدگذاری عملکرد به روز رسانی پارامتر شبکه
Coding the Network Parameter Update Functionality
کدگذاری حلقه اصلی و تماشای فرود مامور DDPG ما بر روی ماه
Coding the Main Loop and Watching Our DDPG Agent Land on the Moon
دو شیب سیاست قطعی عمیق با تاخیر (TD3)
Twin Delayed Deep Deterministic Policy Gradients (TD3)
چند نکته در مورد خواندن این مقاله
Some Tips on Reading this Paper
تجزیه و تحلیل چکیده مقاله TD3 و مقدمه
Analyzing the TD3 Paper Abstract and Introduction
مردم چه راه حل های دیگری را امتحان کرده اند؟
What Other Solutions Have People Tried?
مروری بر مفاهیم بنیادی
Reviewing the Fundamental Concepts
آیا تعصب بیش از حد در روشهای نقد بازیگر هم مشکل است؟
Is Overestimation Bias Even a Problem in Actor-Critic Methods?
چرا واریانس برای روش های منتقد بازیگر مشکل ساز است؟
Why is Variance a Problem for Actor-Critic Methods?
چه نتایجی می توانیم انتظار داشته باشیم؟
What Results Can We Expect?
کدگذاری مغزهای عامل TD3 - کلاس های شبکه بازیگر و منتقد
Coding the Brains of the TD3 Agent - The Actor and Critic Network Classes
دادن استقلال ساده به عامل TD3 - کدگذاری عملکرد عامل اصلی
Giving our TD3 Agent Simple Autonomy - Coding the Basic Agent Functionality
دادن مغز به عامل TD3 ما - کدگذاری عملکرد یادگیری
Giving our TD3 Agent a Brain - Coding the Learn Function
کدگذاری عملکرد به روز رسانی پارامتر شبکه
Coding the Network Parameter Update Functionality
کدگذاری حلقه اصلی و تماشای نماینده ما در حال یادگیری راه رفتن
Coding the Main Loop And Watching our Agent Learn to Walk
منتقد بازیگر نرم
Soft Actor Critic
یک کلمه سریع روی کاغذ
A Quick Word on the Paper
آشنایی با یک چارچوب جدید
Getting Acquainted With a New Framework
بررسی آنچه قبلا انجام شده است
Checking Out What Has Been Done Before
بازرسی بنیاد این چارچوب جدید
Inspecting the Foundation of this New Framework
کاوش در ریاضیات منتقد بازیگر نرم
Digging Into the Mathematics of Soft Actor Critic
مشاهده نحوه اندازه گیری الگوریتم جدید
Seeing How the New Algorithm Measures Up
کدگذاری شبکه های عصبی
Coding the Neural Networks
کدگذاری Soft Actor Critic Basic Functional
Coding the Soft Actor Critic Basic Functionality
کدگذاری الگوریتم منتقد بازیگر نرم
Coding the Soft Actor Critic Algorithm
کدگذاری حلقه اصلی و ارزیابی نماینده ما
Coding the Main Loop and Evaluating Our Agent
یودمی یکی از بزرگترین پلتفرمهای آموزشی آنلاین است که به میلیونها کاربر در سراسر جهان امکان دسترسی به دورههای متنوع و کاربردی را فراهم میکند. این پلتفرم امکان آموزش در زمینههای مختلف از فناوری اطلاعات و برنامهنویسی گرفته تا زبانهای خارجی، مدیریت، و هنر را به کاربران ارائه میدهد. با استفاده از یودمی، کاربران میتوانند به صورت انعطافپذیر و بهینه، مهارتهای جدیدی را یاد بگیرند و خود را برای بازار کار آماده کنند.
یکی از ویژگیهای برجسته یودمی، کیفیت بالای دورهها و حضور استادان مجرب و با تجربه در هر حوزه است. این امر به کاربران اعتماد میدهد که در حال دریافت آموزش از منابع قابل اعتماد و معتبر هستند و میتوانند به بهترین شکل ممکن از آموزشها بهره ببرند. به طور خلاصه، یودمی به عنوان یکی از معتبرترین و موثرترین پلتفرمهای آموزشی آنلاین، به افراد امکان میدهد تا به راحتی و با کیفیت، مهارتهای مورد نیاز خود را ارتقا دهند و به دنبال رشد و پیشرفت شغلی خود باشند.
نمایش نظرات