آموزش درک الگوریتم های یادگیری تقویتی

Understanding Algorithms for Reinforcement Learning

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: یادگیری تقویتی نوعی یادگیری ماشینی است که به تصمیم گیرندگان اجازه می دهد در یک محیط ناشناخته عمل کنند. در دنیای ماشین‌های خودران و ربات‌های کاوشگر، RL یک رشته تحصیلی مهم برای هر دانشجوی یادگیری ماشینی است. الگوریتم‌های یادگیری ماشین سنتی برای پیش‌بینی و طبقه‌بندی استفاده می‌شوند. یادگیری تقویتی در مورد آموزش عوامل برای تصمیم گیری برای به حداکثر رساندن پاداش های تجمعی است. در این دوره آموزشی، درک الگوریتم‌ها برای یادگیری تقویتی، اصول اولیه الگوریتم‌های یادگیری تقویتی، طبقه‌بندی RL و تکنیک‌های خاص جستجوی سیاست مانند Q-Learning و SARSA را خواهید آموخت. ابتدا، هدف یادگیری تقویتی را کشف خواهید کرد. برای یافتن یک خط مشی بهینه که به نمایندگان اجازه می دهد تا تصمیمات درستی برای به حداکثر رساندن پاداش های بلند مدت بگیرند. شما نحوه مدل‌سازی محیط را مطالعه خواهید کرد تا الگوریتم‌های RL از نظر محاسباتی قابل پردازش باشند. در مرحله بعد، برنامه نویسی پویا را بررسی خواهید کرد، تکنیک مهمی که برای کش کردن نتایج میانی استفاده می شود که محاسبه مسائل پیچیده را ساده می کند. شما تکنیک‌های جستجوی خط‌مشی مانند یادگیری تفاوت زمانی (Q-Learning) و SARSA را درک کرده و پیاده‌سازی خواهید کرد که به همگرایی به یک خط‌مشی بهینه برای الگوریتم RL شما کمک می‌کند. در نهایت، شما پلتفرم‌های یادگیری تقویتی را خواهید ساخت که امکان مطالعه، نمونه‌سازی و توسعه خط‌مشی‌ها را فراهم می‌کند و همچنین با تکنیک‌های Q-learning و SARSA در OpenAI Gym کار می‌کند. در پایان این دوره، شما باید درک کاملی از تکنیک های یادگیری تقویتی، یادگیری Q و SARSA داشته باشید و بتوانید الگوریتم های پایه RL را پیاده سازی کنید.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

درک مسئله یادگیری تقویتی Understanding the Reinforcement Learning Problem

  • بررسی نسخه Version Check

  • نمای کلی ماژول Module Overview

  • پیش نیازها و بررسی اجمالی دوره Prerequisites and Course Overview

  • تکنیک های یادگیری ماشینی تحت نظارت و بدون نظارت Supervised and Unsupervised Machine Learning Techniques

  • معرفی یادگیری تقویتی Introducing Reinforcement Learning

  • یادگیری تقویتی در مقابل یادگیری تحت نظارت و بدون نظارت Reinforcement Learning vs. Supervised and Unsupervised Learning

  • مدل سازی محیط به عنوان یک فرآیند تصمیم گیری مارکوف Modeling the Environment as a Markov Decision Process

  • کاربردهای یادگیری تقویتی Reinforcement Learning Applications

  • درک سیاست جستجو Understanding Policy Search

  • الگوریتم های جستجوی خط مشی Policy Search Algorithms

پیاده سازی الگوریتم های یادگیری تقویتی Implementing Reinforcement Learning Algorithms

  • نمای کلی ماژول Module Overview

  • برنامه نویسی پویا Dynamic Programming

  • نسخه ی نمایشی: الگوریتم 8-Queens با استفاده از برنامه نویسی پویا، توابع کمکی Demo: 8-Queens Algorithm Using Dynamic Programming, Helper Functions

  • نسخه ی نمایشی: الگوریتم 8-Queens با استفاده از برنامه نویسی پویا، محل کوئین ها Demo: 8-Queens Algorithm Using Dynamic Programming, Place Queens

  • تکنیک های جستجوی خط مشی: یادگیری Q و SARSA Policy Search Techniques: Q-learning and SARSA

  • شهود پشت یادگیری Q Intuition Behind Q-learning

  • یادگیری Q با استفاده از روش تفاوت زمانی و SARSA Q-learning Using the Temporal Difference Method and SARSA

  • کاوش در فضای ایالتی Exploring State Space

  • نسخه ی نمایشی: Q-Learning برای کوتاه ترین مسیر: اولیه سازی Demo: Q-learning for Shortest Path: Initialization

  • نسخه ی نمایشی: Q-Learning برای کوتاه ترین مسیر: پیاده سازی Demo: Q-learning for Shortest Path: Implementation

  • تفاوت های شهودی بین روش تفاوت زمانی و SARSA Intuitive Differences Between the Temporal Difference Method and SARSA

  • Q-value به عنوان یک تکنیک یادداشت Q-values as a Memoization Technique

استفاده از بسترهای یادگیری تقویتی Using Reinforcement Learning Platforms

  • نمای کلی ماژول Module Overview

  • کاوش در بسترهای یادگیری تقویتی Exploring Reinforcement Learning Platforms

  • کاوش در محیط‌ها در ورزشگاه هوش مصنوعی باز Exploring Environments in the Open AI Gym

  • نسخه ی نمایشی: یادگیری Q با استفاده از SARSA در محیط دریاچه یخ زده Demo: Q-learning Using SARSA in the Frozen Lake Environment

  • نسخه ی نمایشی: Q-یادگیری تعادل قطب در سبد خرید Demo: Q-learning to Balance a Pole on a Cart

  • نسخه ی نمایشی: Q-یادگیری تعادل قطب در شبیه سازی سبد خرید Demo: Q-learning to Balance a Pole on a Cart Simulation

  • خلاصه و مطالعه بیشتر Summary and Further Study

نمایش نظرات

آموزش درک الگوریتم های یادگیری تقویتی
جزییات دوره
2h 7m
30
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
52
4.2 از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.