آموزش یادگیری تقویتی عمیق مبتنی بر کنجکاوی

Curiosity Driven Deep Reinforcement Learning

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: چگونه عوامل می توانند در محیط های بدون پاداش یاد بگیرند نحوه کدنویسی عوامل A3C نحوه انجام پردازش موازی در پایتون نحوه پیاده سازی مقالات آموزشی تقویتی عمیق نحوه کدنویسی ماژول کنجکاوی درونی پیش نیازها:تجربه در کدنویسی عوامل منتقد بازیگر

اگر قرار است یادگیری تقویتی به عنوان مسیری مناسب برای هوش مصنوعی عمومی عمل کند، باید یاد بگیرد که با محیط‌هایی با پاداش‌های کم یا کاملاً غایب کنار بیاید. اکثر سیستم‌های زندگی واقعی پاداش‌هایی را ارائه می‌کنند که تنها پس از چند مرحله زمانی اتفاق می‌افتند، و عامل را با اطلاعات کمی برای ایجاد یک خط‌مشی موفق باقی می‌گذارند. یادگیری تقویتی مبتنی بر کنجکاوی این مشکل را با ایجاد حس کنجکاوی ذاتی در مورد دنیای خود به عامل حل می‌کند و او را قادر می‌سازد تا خط‌مشی‌های موفق برای پیمایش در جهان را کشف و یاد بگیرد.


در این دوره پیشرفته در زمینه یادگیری تقویتی عمیق، دانش آموزان با انگیزه یاد می گیرند که چگونه مقالات تحقیقاتی هوش مصنوعی پیشرفته را از ابتدا پیاده سازی کنند. این یک دوره سریع برای کسانی است که در کدنویسی عوامل منتقد بازیگر به تنهایی تجربه دارند. ما دو مقاله را در این دوره با استفاده از چارچوب محبوب PyTorch کدنویسی می کنیم.


مقاله اول روش های ناهمزمان برای یادگیری تقویتی عمیق را پوشش می دهد. همچنین به عنوان الگوریتم منتقد مزیت ناهمزمان محبوب (A3C) شناخته می شود. در اینجا دانش‌آموزان چارچوب جدیدی برای یادگیری پیدا می‌کنند که به GPU نیاز ندارد. ما یاد خواهیم گرفت که چگونه Multithreading را در پایتون پیاده سازی کنیم و از آن برای آموزش چندین عامل منتقد بازیگر به طور موازی استفاده کنیم. ما از اجرای اولیه مقاله فراتر خواهیم رفت و بهبود اخیر را برای یادگیری تقویتی به نام برآورد مزیت تعمیم یافته اجرا می کنیم. ما نمایندگان خود را در محیط Pong از کتابخانه آتاری Open AI Gym آزمایش خواهیم کرد و تنها در چند ساعت به عملکرد تقریباً کلاس جهانی خواهیم رسید.


از آنجا به قلب دوره می‌رویم: یادگیری در محیط‌هایی با پاداش‌های کم یا کاملاً غایب. این پارادایم جدید از کنجکاوی عامل در مورد محیط به عنوان یک پاداش ذاتی استفاده می کند که عامل را به کشف و یادگیری مهارت های قابل تعمیم ترغیب می کند. ما ماژول کنجکاوی ذاتی (ICM) را پیاده سازی خواهیم کرد، که یک ماژول پیچ و مهره ای برای هر الگوریتم یادگیری تقویتی عمیق است. ما عامل خود را در محیطی مانند پیچ ​​و خم آموزش خواهیم داد و آزمایش خواهیم کرد که فقط زمانی پاداش می دهد که عامل به هدف برسد. یک افزایش عملکرد واضح نسبت به الگوریتم وانیلی A3C نشان داده خواهد شد، که به طور قطعی قدرت یادگیری تقویتی عمیق مبتنی بر کنجکاوی را نشان می دهد.


لطفاً به خاطر داشته باشید که این یک دوره سریع برای دانش آموزان با انگیزه و پیشرفته است. فقط یک بررسی بسیار مختصر از مفاهیم اساسی یادگیری تقویتی و روش‌های منتقد بازیگر انجام خواهد شد و از آنجا مستقیماً به خواندن و اجرای مقالات خواهیم پرداخت.


زیبایی هر دو روش ICM و ناهمزمان در این است که این پارادایم ها را می توان تقریباً برای هر الگوریتم یادگیری تقویتی دیگری اعمال کرد. هر دو بسیار قابل انطباق هستند و می توانند با تغییرات اندکی به الگوریتم هایی مانند بهینه سازی خط مشی پروگزیمال، منتقد بازیگر نرم، یا یادگیری عمیق Q متصل شوند.


دانش آموزان یاد خواهند گرفت که چگونه:

  • مقالات یادگیری تقویتی عمیق را اجرا کنید

  • از CPUهای چند هسته ای با پردازش موازی در پایتون استفاده کنید

  • الگوریتم A3C را از ابتدا کدنویسی کنید

  • ICM را از اصول اولیه کدنویسی کنید

  • تخمین مزیت تعمیم یافته کد

  • کتابخانه Open AI Gym Atari

    را تغییر دهید
  • کد ماژولار قابل توسعه بنویسید

این دوره با پیاده سازی PyTorch راه اندازی می شود و نسخه Tensorflow 2 در راه است.


من شما را در داخل می بینم.


سرفصل ها و درس ها

معرفی Introduction

  • آنچه در این دوره خواهید آموخت What You Will Learn in this Course

  • چگونه در این دوره موفق شویم How to Succeed in this Course

  • پیشینه، نرم افزار و سخت افزار مورد نیاز Required Background, Software, and Hardware

مفاهیم بنیادی Fundamental Concepts

  • مروری کوتاه بر روش‌های یادگیری تقویتی عمیق و روش‌های نقد بازیگر A Brief Review of Deep Reinforcement Learning and Actor Critic Methods

  • بررسی کد عامل منتقد بازیگر پایه Code Review of Basic Actor Critic Agent

  • دوره تصادفی در روش‌های انتقادی بازیگر مزیت ناهمزمان A Crash Course in Asynchronous Advantage Actor Critic Methods

  • ساختار کد ما Our Code Structure

تجزیه و تحلیل مقاله: روش های ناهمزمان برای یادگیری تقویتی عمیق Paper Analysis: Asynchronous Methods for Deep Reinforcement Learning

  • نحوه خواندن و اجرای مقالات پژوهشی How to Read and Implement Research Papers

  • مقاله A3C: چکیده و مقدمه A3C Paper: Abstract and Introduction

  • دوره Crash در پردازش موازی در پایتون Crash Course in Parallel Processing in Python

  • مقاله A3C: کارهای مرتبط، پیشینه یادگیری تقویتی A3C Paper: Related Work, Reinforcement Learning Background

  • مقاله A3C: چارچوب یادگیری تقویتی ناهمزمان A3C Paper: The Asynchronous Reinforcement Learning Framework

  • کدگذاری شبکه منتقد بازیگر ما Coding our Actor Critic Network

  • یادگیری با تخمین مزیت تعمیم یافته Learning with Generalized Advantage Estimation

  • کدگذاری یک حافظه تکراری مینیمالیستی Coding a Minimalist Replay Memory

  • کدنویسی بهینه ساز اشتراکی Adam Coding the Shared Adam Optimizer

  • مقاله A3C: آزمایش ها و بحث A3C Paper: Experiments and Discussion

  • چگونه محیط‌های آتاری ورزشگاه هوش مصنوعی باز را اصلاح کنیم How to Modify the Open AI Gym Atari Environments

  • کدگذاری حلقه اصلی ما و ارزیابی نماینده ما Coding Our Main Loop and Evaluating Our Agent

تجزیه و تحلیل مقاله: کاوش مبتنی بر کنجکاوی با پیش بینی خود نظارتی Paper Analysis: Curiosity Driven Exploration by Self Supervised Prediction

  • بررسی اجمالی کاغذ Paper Overview

  • مقاله ICM: چکیده و مقدمه ICM Paper: Abstract and Introduction

  • مقاله ICM: کاوش مبتنی بر کنجکاوی ICM Paper: Curiosity Driven Exploration

  • راه اندازی آزمایشی و کدگذاری ماژول ICM ما Experimental Setup and Coding Our ICM Module

  • مقاله ICM: آزمایش‌ها، کارهای مرتبط و بحث ICM Paper: Experiments, Related Work, and Discussion

  • راه اندازی Mini World و آموزش نماینده ICM ما Setting Up the Mini World and Training Our ICM Agent

نمایش نظرات

آموزش یادگیری تقویتی عمیق مبتنی بر کنجکاوی
جزییات دوره
4 hours
25
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
899
4.8 از 5
ندارد
دارد
دارد
Phil Tabor
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Phil Tabor Phil Tabor

مهندس یادگیری ماشین