آموزش تقویتی با پایتون برای مبتدیان توضیح داده شد [ویدئو]

Reinforcement Learning with Python Explained for Beginners [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: اگرچه چند دهه پیش به صورت آکادمیک معرفی شد، اما تحولات اخیر در زمینه یادگیری تقویتی فوق العاده بوده است. حوزه‌هایی مانند ماشین‌های خودران، پردازش زبان طبیعی، صنعت مراقبت‌های بهداشتی، سیستم‌های توصیه‌کننده آنلاین و غیره قبلاً دیده‌اند که چگونه عوامل هوش مصنوعی مبتنی بر RL می‌توانند دستاوردهای فوق‌العاده‌ای به ارمغان بیاورند. این دوره به شما کمک می کند ابتدا با ایجاد انگیزه برای این رشته و سپس پوشش دادن تمام موضوعات ضروری مانند فرآیندهای تصمیم گیری مارکوف، سیاست و پاداش، یادگیری بدون مدل، یادگیری تفاوت های زمانی و غیره، یادگیری تقویتی را شروع کنید. هر موضوع با تمرین ها و تجزیه و تحلیل تکمیلی همراه است تا به شما در کسب مهارت های کدنویسی عملی و ملموس کمک کند. در پایان این دوره، نه تنها درک لازم را برای پیاده سازی RL در پروژه های خود به دست خواهید آورد، بلکه یک پروژه Frozenlake واقعی را با استفاده از جعبه ابزار OpenAI Gym پیاده سازی خواهید کرد. همه منابع و فایل‌های کد در اینجا قرار می‌گیرند: https://github.com/PacktPublishing/Reinforcement-Learning-with-Python-Explained-for-Beginners درک انگیزه یادگیری تقویتی همه عناصر یک فرآیند تصمیم گیری مارکوف را درک کنید بیاموزید که چگونه عدم قطعیت محیط ها را مدل کنید فرآیندهای تصمیم گیری مارکوف را حل کنید یادگیری تفاوت زمانی و یادگیری Q را در پایتون پیاده سازی کنید پروژه Frozenlake را با استفاده از جعبه ابزار OpenAI Gym اجرا کنید این دوره برای مبتدیان در زمینه علم داده و یادگیری ماشین طراحی شده است. هرکسی که بخواهد RL را یاد بگیرد و آن را در پروژه های واقع گرایانه به کار گیرد، از این دوره بهره مند خواهد شد. درک کاملی از مفاهیم نظری مرتبط با یادگیری تقویتی * مدل های یادگیری استاد مانند یادگیری بدون مدل، یادگیری Q، یادگیری تفاوت زمانی * مدل عدم قطعیت محیط، سیاست های تصادفی محیط، و توابع ارزش محیطی

سرفصل ها و درس ها

معرفی دوره و مدرس Introduction to Course and Instructor

  • معرفی دوره و مدرس Introduction to Course and Instructor

یادگیری تقویت انگیزه Motivation Reinforcement Learning

  • یادگیری تقویتی چیست؟ What is Reinforcement Learning

  • Reinforcement Learning Hiders and Seekers توسط OpenAI چیست What is Reinforcement Learning Hiders and Seekers by OpenAI

  • RL در مقابل سایر چارچوب های ML RL Versus Other ML Frameworks

  • چرا یادگیری تقویتی Why Reinforcement Learning

  • نمونه هایی از یادگیری تقویتی Examples of Reinforcement Learning

  • محدودیت های یادگیری تقویتی Limitations of Reinforcement Learning

  • تمرینات Exercises

اصطلاحات یادگیری تقویتی Terminology of Reinforcement Learning

  • محیط زیست چیست What is Environment

  • Environment_2 چیست What is Environment_2

  • عامل چیست What is Agent

  • ایالت چیست What is State

  • ایالت متعلق به محیط زیست است و نه به عامل State Belongs to Environment and not to Agent

  • اکشن چیست What is Action

  • پاداش چیست What is Reward

  • هدف Goal

  • خط مشی Policy

  • خلاصه Summary

مثال GridWorld GridWorld Example

  • راه اندازی 1 Setup 1

  • راه اندازی 2 Setup 2

  • راه اندازی 3 Setup 3

  • مقایسه سیاست Policy Comparison

  • محیط قطعی Deterministic Environment

  • محیط تصادفی Stochastic Environment

  • محیط تصادفی 2 Stochastic Environment 2

  • محیط تصادفی 3 Stochastic Environment 3

  • محیط غیر ساکن Non-Stationary Environment

  • خلاصه GridWorld GridWorld Summary

  • فعالیت Activity

پیش نیازهای فرآیند تصمیم گیری مارکوف Markov Decision Process Prerequisites

  • احتمال Probability

  • احتمال 2 Probability 2

  • احتمال 3 Probability 3

  • احتمال شرطی Conditional Probability

  • مثال سرگرمی احتمال شرطی Conditional Probability Fun Example

  • احتمال مشترک Joint Probability

  • احتمال مشترک 2 Joint probability 2

  • احتمال مشترک 3 Joint probability 3

  • ارزش مورد انتظار Expected Value

  • انتظار مشروط Conditional Expectation

  • مدلسازی عدم قطعیت محیط Modeling Uncertainty of Environment

  • مدلسازی عدم قطعیت محیط 2 Modeling Uncertainty of Environment 2

  • مدلسازی عدم قطعیت محیط 3 Modeling Uncertainty of Environment 3

  • مدلسازی عدم قطعیت سیاست تصادفی محیطی Modeling Uncertainty of Environment Stochastic Policy

  • مدلسازی عدم قطعیت سیاست تصادفی محیطی 2 Modeling Uncertainty of Environment Stochastic Policy 2

  • مدلسازی عدم قطعیت توابع ارزش محیطی Modeling Uncertainty of Environment Value Functions

  • میانگین های در حال اجرا Running Averages

  • میانگین های در حال اجرا 2 Running Averages 2

  • در حال اجرا میانگین ها به عنوان تفاوت زمانی Running Averages as Temporal Difference

  • فعالیت Activity

عناصر فرآیند تصمیم گیری مارکوف Elements of Markov Decision Process

  • دارایی مارکوف Markov Property

  • فضای ایالتی State Space

  • فضای اکشن Action Space

  • احتمالات انتقال Transition Probabilities

  • تابع پاداش Reward Function

  • عامل تخفیف Discount Factor

  • خلاصه Summary

  • فعالیت Activity

بیشتر در مورد پاداش More on Reward

  • آزمون MOR 1 MOR Quiz 1

  • راه حل آزمون MOR 1 MOR Quiz Solution 1

  • مسابقه MOR 2 MOR Quiz 2

  • راه حل آزمون MOR 2 MOR Quiz Solution 2

  • مقیاس بندی پاداش MOR MOR Reward Scaling

  • افق بی نهایت MOR MOR Infinite Horizons

  • آزمون MOR 3 MOR Quiz 3

  • راه حل آزمون MOR 3 MOR Quiz Solution 3

حل مارکوف DP Solving Markov DP

  • خلاصه MDP MDP Recap

  • توابع ارزش Value Functions

  • تابع ارزش بهینه Optimal Value Function

  • سیاست بهینه Optimal Policy

  • معادله بلمن Bellman Equation

  • تکرار ارزش Value Iteration

  • آزمون تکرار ارزش Value Iteration Quiz

  • آزمون گامای تکرار ارزش وجود ندارد Value Iteration Quiz Gamma Missing

  • راه حل تکرار ارزش Value Iteration Solution

  • مشکلات تکرار ارزش Problems of Value Iteration

  • ارزیابی خط مشی Policy Evaluation

  • ارزیابی خط مشی 2 Policy Evaluation 2

  • ارزیابی خط مشی 3 Policy Evaluation 3

  • ارزیابی خط مشی د فرم راه حل Policy Evaluation d Form Solution

  • تکرار خط مشی Policy Iteration

  • ارزش های اقدام دولت State Action Values

  • مقایسه V و Q V and Q Comparisons

تقریب ارزش Value Approximation

  • ناشناخته بودن MDP به چه معناست What Does it Mean that MDP is Unknown

  • چرا احتمالات انتقال مهم هستند Why Transition Probabilities are Important

  • راه حل های مبتنی بر مدل Model-Based Solutions

  • راه حل های بدون مدل Model-Free Solutions

  • آموزش مونت کارلو Monte-Carlo Learning

  • مثال یادگیری مونت کارلو Monte-Carlo Learning Example

  • محدودیت های یادگیری مونت کارلو Monte-Carlo Learning Limitations

تفاوت زمانی - یادگیری Q Temporal Differencing - Q Learning

  • میانگین در حال اجرا Running Average

  • میزان یادگیری Learning Rate

  • معادله یادگیری Learning Equation

  • الگوریتم TD TD Algorithm

  • اکتشاف در مقابل بهره برداری Exploration Versus Exploitation

  • سیاست حریص اپسیلون Epsilon Greedy Policy

  • سارسا SARSA

  • Q-Learning Q-Learning

  • اجرای Q-Learning برای MAPROVER Clipped Q-Learning Implementation for MAPROVER Clipped

تی دی لامبدا TD Lambda

  • N-Step Look a Head N-Step Look a Head

  • فرمولاسیون Formulation

  • ارزش های Values

  • TD Q-Learning TD Lambda TD Q-Learning TD Lambda

  • TD Q-Learning TD Lambda TD(Lambda) MAPRover Activity TD Q-Learning TD Lambda TD(Lambda) MAPRover Activity

Project Frozenlake (Open AI Gym) Project Frozenlake (Open AI Gym)

  • دریاچه یخ زده 1 Frozenlake 1

  • پیاده سازی Frozenlake Frozenlake Implementation

نمایش نظرات

آموزش تقویتی با پایتون برای مبتدیان توضیح داده شد [ویدئو]
جزییات دوره
9 h 7 m
105
Packtpub Packtpub
(آخرین آپدیت)
از 5
ندارد
دارد
دارد
AI Sciences
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

AI Sciences AI Sciences

کارشناسان هوش مصنوعی و دانشمندان داده | رتبه ۴+ | 168+ کشور