دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش یادگیری تقویتی عمیق مبتنی بر کنجکاوی

Curiosity Driven Deep Reinforcement Learning

در حال بارگزاری نمونه ویدیو، لطفا صبر کنید...

Video Player is loading.

Current Time 0:00

Duration 0:00

Loaded: 0%

Stream Type LIVE

Remaining Time 0:00

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

در حال بارگزاری، لطفا صبر کنید...

توضیحات دوره: چگونه عوامل می توانند در محیط های بدون پاداش یاد بگیرند نحوه کدنویسی عوامل A3C نحوه انجام پردازش موازی در پایتون نحوه پیاده سازی مقالات آموزشی تقویتی عمیق نحوه کدنویسی ماژول کنجکاوی درونی پیش نیازها:تجربه در کدنویسی عوامل منتقد بازیگر

اگر قرار است یادگیری تقویتی به عنوان مسیری مناسب برای هوش مصنوعی عمومی عمل کند، باید یاد بگیرد که با محیط‌هایی با پاداش‌های کم یا کاملاً غایب کنار بیاید. اکثر سیستم‌های زندگی واقعی پاداش‌هایی را ارائه می‌کنند که تنها پس از چند مرحله زمانی اتفاق می‌افتند، و عامل را با اطلاعات کمی برای ایجاد یک خط‌مشی موفق باقی می‌گذارند. یادگیری تقویتی مبتنی بر کنجکاوی این مشکل را با ایجاد حس کنجکاوی ذاتی در مورد دنیای خود به عامل حل می‌کند و او را قادر می‌سازد تا خط‌مشی‌های موفق برای پیمایش در جهان را کشف و یاد بگیرد.

در این دوره پیشرفته در زمینه یادگیری تقویتی عمیق، دانش آموزان با انگیزه یاد می گیرند که چگونه مقالات تحقیقاتی هوش مصنوعی پیشرفته را از ابتدا پیاده سازی کنند. این یک دوره سریع برای کسانی است که در کدنویسی عوامل منتقد بازیگر به تنهایی تجربه دارند. ما دو مقاله را در این دوره با استفاده از چارچوب محبوب PyTorch کدنویسی می کنیم.

مقاله اول روش های ناهمزمان برای یادگیری تقویتی عمیق را پوشش می دهد. همچنین به عنوان الگوریتم منتقد مزیت ناهمزمان محبوب (A3C) شناخته می شود. در اینجا دانش‌آموزان چارچوب جدیدی برای یادگیری پیدا می‌کنند که به GPU نیاز ندارد. ما یاد خواهیم گرفت که چگونه Multithreading را در پایتون پیاده سازی کنیم و از آن برای آموزش چندین عامل منتقد بازیگر به طور موازی استفاده کنیم. ما از اجرای اولیه مقاله فراتر خواهیم رفت و بهبود اخیر را برای یادگیری تقویتی به نام برآورد مزیت تعمیم یافته اجرا می کنیم. ما نمایندگان خود را در محیط Pong از کتابخانه آتاری Open AI Gym آزمایش خواهیم کرد و تنها در چند ساعت به عملکرد تقریباً کلاس جهانی خواهیم رسید.

از آنجا به قلب دوره می‌رویم: یادگیری در محیط‌هایی با پاداش‌های کم یا کاملاً غایب. این پارادایم جدید از کنجکاوی عامل در مورد محیط به عنوان یک پاداش ذاتی استفاده می کند که عامل را به کشف و یادگیری مهارت های قابل تعمیم ترغیب می کند. ما ماژول کنجکاوی ذاتی (ICM) را پیاده سازی خواهیم کرد، که یک ماژول پیچ و مهره ای برای هر الگوریتم یادگیری تقویتی عمیق است. ما عامل خود را در محیطی مانند پیچ و خم آموزش خواهیم داد و آزمایش خواهیم کرد که فقط زمانی پاداش می دهد که عامل به هدف برسد. یک افزایش عملکرد واضح نسبت به الگوریتم وانیلی A3C نشان داده خواهد شد، که به طور قطعی قدرت یادگیری تقویتی عمیق مبتنی بر کنجکاوی را نشان می دهد.

لطفاً به خاطر داشته باشید که این یک دوره سریع برای دانش آموزان با انگیزه و پیشرفته است. فقط یک بررسی بسیار مختصر از مفاهیم اساسی یادگیری تقویتی و روش‌های منتقد بازیگر انجام خواهد شد و از آنجا مستقیماً به خواندن و اجرای مقالات خواهیم پرداخت.

زیبایی هر دو روش ICM و ناهمزمان در این است که این پارادایم ها را می توان تقریباً برای هر الگوریتم یادگیری تقویتی دیگری اعمال کرد. هر دو بسیار قابل انطباق هستند و می توانند با تغییرات اندکی به الگوریتم هایی مانند بهینه سازی خط مشی پروگزیمال، منتقد بازیگر نرم، یا یادگیری عمیق Q متصل شوند.

دانش آموزان یاد خواهند گرفت که چگونه:

مقالات یادگیری تقویتی عمیق را اجرا کنید
از CPUهای چند هسته ای با پردازش موازی در پایتون استفاده کنید
الگوریتم A3C را از ابتدا کدنویسی کنید
ICM را از اصول اولیه کدنویسی کنید
تخمین مزیت تعمیم یافته کد
کتابخانه Open AI Gym Atari
را تغییر دهید
کد ماژولار قابل توسعه بنویسید

این دوره با پیاده سازی PyTorch راه اندازی می شود و نسخه Tensorflow 2 در راه است.

من شما را در داخل می بینم.

سرفصل ها و درس ها

معرفی Introduction

آنچه در این دوره خواهید آموخت What You Will Learn in this Course
چگونه در این دوره موفق شویم How to Succeed in this Course
پیشینه، نرم افزار و سخت افزار مورد نیاز Required Background, Software, and Hardware

مفاهیم بنیادی Fundamental Concepts

مروری کوتاه بر روش‌های یادگیری تقویتی عمیق و روش‌های نقد بازیگر A Brief Review of Deep Reinforcement Learning and Actor Critic Methods
بررسی کد عامل منتقد بازیگر پایه Code Review of Basic Actor Critic Agent
دوره تصادفی در روش‌های انتقادی بازیگر مزیت ناهمزمان A Crash Course in Asynchronous Advantage Actor Critic Methods
ساختار کد ما Our Code Structure

تجزیه و تحلیل مقاله: روش های ناهمزمان برای یادگیری تقویتی عمیق Paper Analysis: Asynchronous Methods for Deep Reinforcement Learning

نحوه خواندن و اجرای مقالات پژوهشی How to Read and Implement Research Papers
مقاله A3C: چکیده و مقدمه A3C Paper: Abstract and Introduction
دوره Crash در پردازش موازی در پایتون Crash Course in Parallel Processing in Python
مقاله A3C: کارهای مرتبط، پیشینه یادگیری تقویتی A3C Paper: Related Work, Reinforcement Learning Background
مقاله A3C: چارچوب یادگیری تقویتی ناهمزمان A3C Paper: The Asynchronous Reinforcement Learning Framework
کدگذاری شبکه منتقد بازیگر ما Coding our Actor Critic Network
یادگیری با تخمین مزیت تعمیم یافته Learning with Generalized Advantage Estimation
کدگذاری یک حافظه تکراری مینیمالیستی Coding a Minimalist Replay Memory
کدنویسی بهینه ساز اشتراکی Adam Coding the Shared Adam Optimizer
مقاله A3C: آزمایش ها و بحث A3C Paper: Experiments and Discussion
چگونه محیط‌های آتاری ورزشگاه هوش مصنوعی باز را اصلاح کنیم How to Modify the Open AI Gym Atari Environments
کدگذاری حلقه اصلی ما و ارزیابی نماینده ما Coding Our Main Loop and Evaluating Our Agent

تجزیه و تحلیل مقاله: کاوش مبتنی بر کنجکاوی با پیش بینی خود نظارتی Paper Analysis: Curiosity Driven Exploration by Self Supervised Prediction

بررسی اجمالی کاغذ Paper Overview
مقاله ICM: چکیده و مقدمه ICM Paper: Abstract and Introduction
مقاله ICM: کاوش مبتنی بر کنجکاوی ICM Paper: Curiosity Driven Exploration
راه اندازی آزمایشی و کدگذاری ماژول ICM ما Experimental Setup and Coding Our ICM Module
مقاله ICM: آزمایش‌ها، کارهای مرتبط و بحث ICM Paper: Experiments, Related Work, and Discussion
راه اندازی Mini World و آموزش نماینده ICM ما Setting Up the Mini World and Training Our ICM Agent

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

نظری ارسال نشده است.

آموزش یادگیری تقویتی عمیق مبتنی بر کنجکاوی

خرید اشتراک و دانلود خرید تکی و دانلود | 210,000 تومان (5 روز مهلت دانلود ) زمان تقریبی آماده سازی لینک دانلود این دوره آموزشی حدود 2 تا 14 ساعت می باشد.

جزییات دوره

زمان دوره: 4 hours

تعداد ویدیو ها: 25

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 899

امتیاز مرجع: 4.8 از 5

فایل تمرین: ندارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Phil Tabor

لینک کوتاه این دوره

https://donyad.com/d/30828c

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

دنیاد

بازاریابی

دیگر

علوم داده

آموزش یادگیری تقویتی عمیق مبتنی بر کنجکاوی

Curiosity Driven Deep Reinforcement Learning

معرفی Introduction

آنچه در این دوره خواهید آموخت What You Will Learn in this Course

چگونه در این دوره موفق شویم How to Succeed in this Course

پیشینه، نرم افزار و سخت افزار مورد نیاز Required Background, Software, and Hardware

مفاهیم بنیادی Fundamental Concepts

مروری کوتاه بر روش‌های یادگیری تقویتی عمیق و روش‌های نقد بازیگر A Brief Review of Deep Reinforcement Learning and Actor Critic Methods

بررسی کد عامل منتقد بازیگر پایه Code Review of Basic Actor Critic Agent

دوره تصادفی در روش‌های انتقادی بازیگر مزیت ناهمزمان A Crash Course in Asynchronous Advantage Actor Critic Methods

ساختار کد ما Our Code Structure

تجزیه و تحلیل مقاله: روش های ناهمزمان برای یادگیری تقویتی عمیق Paper Analysis: Asynchronous Methods for Deep Reinforcement Learning

نحوه خواندن و اجرای مقالات پژوهشی How to Read and Implement Research Papers

مقاله A3C: چکیده و مقدمه A3C Paper: Abstract and Introduction

دوره Crash در پردازش موازی در پایتون Crash Course in Parallel Processing in Python

مقاله A3C: کارهای مرتبط، پیشینه یادگیری تقویتی A3C Paper: Related Work, Reinforcement Learning Background

مقاله A3C: چارچوب یادگیری تقویتی ناهمزمان A3C Paper: The Asynchronous Reinforcement Learning Framework

کدگذاری شبکه منتقد بازیگر ما Coding our Actor Critic Network

یادگیری با تخمین مزیت تعمیم یافته Learning with Generalized Advantage Estimation

کدگذاری یک حافظه تکراری مینیمالیستی Coding a Minimalist Replay Memory

کدنویسی بهینه ساز اشتراکی Adam Coding the Shared Adam Optimizer

مقاله A3C: آزمایش ها و بحث A3C Paper: Experiments and Discussion

چگونه محیط‌های آتاری ورزشگاه هوش مصنوعی باز را اصلاح کنیم How to Modify the Open AI Gym Atari Environments

کدگذاری حلقه اصلی ما و ارزیابی نماینده ما Coding Our Main Loop and Evaluating Our Agent

تجزیه و تحلیل مقاله: کاوش مبتنی بر کنجکاوی با پیش بینی خود نظارتی Paper Analysis: Curiosity Driven Exploration by Self Supervised Prediction

بررسی اجمالی کاغذ Paper Overview

مقاله ICM: چکیده و مقدمه ICM Paper: Abstract and Introduction

مقاله ICM: کاوش مبتنی بر کنجکاوی ICM Paper: Curiosity Driven Exploration

راه اندازی آزمایشی و کدگذاری ماژول ICM ما Experimental Setup and Coding Our ICM Module

مقاله ICM: آزمایش‌ها، کارهای مرتبط و بحث ICM Paper: Experiments, Related Work, and Discussion

راه اندازی Mini World و آموزش نماینده ICM ما Setting Up the Mini World and Training Our ICM Agent

نمایش نظرات

https://donyad.com/d/30828c

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar