Beginning of dialog window. Escape will cancel and close the window.
End of dialog window.
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
در حال بارگزاری، لطفا صبر کنید...
توضیحات دوره:
چگونه عوامل می توانند در محیط های بدون پاداش یاد بگیرند نحوه کدنویسی عوامل A3C نحوه انجام پردازش موازی در پایتون نحوه پیاده سازی مقالات آموزشی تقویتی عمیق نحوه کدنویسی ماژول کنجکاوی درونی پیش نیازها:تجربه در کدنویسی عوامل منتقد بازیگر
اگر قرار است یادگیری تقویتی به عنوان مسیری مناسب برای هوش مصنوعی عمومی عمل کند، باید یاد بگیرد که با محیطهایی با پاداشهای کم یا کاملاً غایب کنار بیاید. اکثر سیستمهای زندگی واقعی پاداشهایی را ارائه میکنند که تنها پس از چند مرحله زمانی اتفاق میافتند، و عامل را با اطلاعات کمی برای ایجاد یک خطمشی موفق باقی میگذارند. یادگیری تقویتی مبتنی بر کنجکاوی این مشکل را با ایجاد حس کنجکاوی ذاتی در مورد دنیای خود به عامل حل میکند و او را قادر میسازد تا خطمشیهای موفق برای پیمایش در جهان را کشف و یاد بگیرد.
در این دوره پیشرفته در زمینه یادگیری تقویتی عمیق، دانش آموزان با انگیزه یاد می گیرند که چگونه مقالات تحقیقاتی هوش مصنوعی پیشرفته را از ابتدا پیاده سازی کنند. این یک دوره سریع برای کسانی است که در کدنویسی عوامل منتقد بازیگر به تنهایی تجربه دارند. ما دو مقاله را در این دوره با استفاده از چارچوب محبوب PyTorch کدنویسی می کنیم.
مقاله اول روش های ناهمزمان برای یادگیری تقویتی عمیق را پوشش می دهد. همچنین به عنوان الگوریتم منتقد مزیت ناهمزمان محبوب (A3C) شناخته می شود. در اینجا دانشآموزان چارچوب جدیدی برای یادگیری پیدا میکنند که به GPU نیاز ندارد. ما یاد خواهیم گرفت که چگونه Multithreading را در پایتون پیاده سازی کنیم و از آن برای آموزش چندین عامل منتقد بازیگر به طور موازی استفاده کنیم. ما از اجرای اولیه مقاله فراتر خواهیم رفت و بهبود اخیر را برای یادگیری تقویتی به نام برآورد مزیت تعمیم یافته اجرا می کنیم. ما نمایندگان خود را در محیط Pong از کتابخانه آتاری Open AI Gym آزمایش خواهیم کرد و تنها در چند ساعت به عملکرد تقریباً کلاس جهانی خواهیم رسید.
از آنجا به قلب دوره میرویم: یادگیری در محیطهایی با پاداشهای کم یا کاملاً غایب. این پارادایم جدید از کنجکاوی عامل در مورد محیط به عنوان یک پاداش ذاتی استفاده می کند که عامل را به کشف و یادگیری مهارت های قابل تعمیم ترغیب می کند. ما ماژول کنجکاوی ذاتی (ICM) را پیاده سازی خواهیم کرد، که یک ماژول پیچ و مهره ای برای هر الگوریتم یادگیری تقویتی عمیق است. ما عامل خود را در محیطی مانند پیچ و خم آموزش خواهیم داد و آزمایش خواهیم کرد که فقط زمانی پاداش می دهد که عامل به هدف برسد. یک افزایش عملکرد واضح نسبت به الگوریتم وانیلی A3C نشان داده خواهد شد، که به طور قطعی قدرت یادگیری تقویتی عمیق مبتنی بر کنجکاوی را نشان می دهد.
لطفاً به خاطر داشته باشید که این یک دوره سریع برای دانش آموزان با انگیزه و پیشرفته است. فقط یک بررسی بسیار مختصر از مفاهیم اساسی یادگیری تقویتی و روشهای منتقد بازیگر انجام خواهد شد و از آنجا مستقیماً به خواندن و اجرای مقالات خواهیم پرداخت.
زیبایی هر دو روش ICM و ناهمزمان در این است که این پارادایم ها را می توان تقریباً برای هر الگوریتم یادگیری تقویتی دیگری اعمال کرد. هر دو بسیار قابل انطباق هستند و می توانند با تغییرات اندکی به الگوریتم هایی مانند بهینه سازی خط مشی پروگزیمال، منتقد بازیگر نرم، یا یادگیری عمیق Q متصل شوند.
دانش آموزان یاد خواهند گرفت که چگونه:
مقالات یادگیری تقویتی عمیق را اجرا کنید
از CPUهای چند هسته ای با پردازش موازی در پایتون استفاده کنید
الگوریتم A3C را از ابتدا کدنویسی کنید
ICM را از اصول اولیه کدنویسی کنید
تخمین مزیت تعمیم یافته کد
کتابخانه Open AI Gym Atari
را تغییر دهید
کد ماژولار قابل توسعه بنویسید
این دوره با پیاده سازی PyTorch راه اندازی می شود و نسخه Tensorflow 2 در راه است.
من شما را در داخل می بینم.
سرفصل ها و درس ها
معرفی
Introduction
آنچه در این دوره خواهید آموخت
What You Will Learn in this Course
چگونه در این دوره موفق شویم
How to Succeed in this Course
پیشینه، نرم افزار و سخت افزار مورد نیاز
Required Background, Software, and Hardware
مفاهیم بنیادی
Fundamental Concepts
مروری کوتاه بر روشهای یادگیری تقویتی عمیق و روشهای نقد بازیگر
A Brief Review of Deep Reinforcement Learning and Actor Critic Methods
بررسی کد عامل منتقد بازیگر پایه
Code Review of Basic Actor Critic Agent
دوره تصادفی در روشهای انتقادی بازیگر مزیت ناهمزمان
A Crash Course in Asynchronous Advantage Actor Critic Methods
ساختار کد ما
Our Code Structure
تجزیه و تحلیل مقاله: روش های ناهمزمان برای یادگیری تقویتی عمیق
Paper Analysis: Asynchronous Methods for Deep Reinforcement Learning
نحوه خواندن و اجرای مقالات پژوهشی
How to Read and Implement Research Papers
مقاله A3C: چکیده و مقدمه
A3C Paper: Abstract and Introduction
دوره Crash در پردازش موازی در پایتون
Crash Course in Parallel Processing in Python
نمایش نظرات
نظری ارسال نشده است.