دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش تقویتی با پایتون برای مبتدیان توضیح داده شد [ویدئو] - آخرین آپدیت

Reinforcement Learning with Python Explained for Beginners [Video]

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: اگرچه چند دهه پیش به صورت آکادمیک معرفی شد، اما تحولات اخیر در زمینه یادگیری تقویتی فوق العاده بوده است. حوزه‌هایی مانند ماشین‌های خودران، پردازش زبان طبیعی، صنعت مراقبت‌های بهداشتی، سیستم‌های توصیه‌کننده آنلاین و غیره قبلاً دیده‌اند که چگونه عوامل هوش مصنوعی مبتنی بر RL می‌توانند دستاوردهای فوق‌العاده‌ای به ارمغان بیاورند. این دوره به شما کمک می کند ابتدا با ایجاد انگیزه برای این رشته و سپس پوشش دادن تمام موضوعات ضروری مانند فرآیندهای تصمیم گیری مارکوف، سیاست و پاداش، یادگیری بدون مدل، یادگیری تفاوت های زمانی و غیره، یادگیری تقویتی را شروع کنید. هر موضوع با تمرین ها و تجزیه و تحلیل تکمیلی همراه است تا به شما در کسب مهارت های کدنویسی عملی و ملموس کمک کند. در پایان این دوره، نه تنها درک لازم را برای پیاده سازی RL در پروژه های خود به دست خواهید آورد، بلکه یک پروژه Frozenlake واقعی را با استفاده از جعبه ابزار OpenAI Gym پیاده سازی خواهید کرد. همه منابع و فایل‌های کد در اینجا قرار می‌گیرند: https://github.com/PacktPublishing/Reinforcement-Learning-with-Python-Explained-for-Beginners درک انگیزه یادگیری تقویتی همه عناصر یک فرآیند تصمیم گیری مارکوف را درک کنید بیاموزید که چگونه عدم قطعیت محیط ها را مدل کنید فرآیندهای تصمیم گیری مارکوف را حل کنید یادگیری تفاوت زمانی و یادگیری Q را در پایتون پیاده سازی کنید پروژه Frozenlake را با استفاده از جعبه ابزار OpenAI Gym اجرا کنید این دوره برای مبتدیان در زمینه علم داده و یادگیری ماشین طراحی شده است. هرکسی که بخواهد RL را یاد بگیرد و آن را در پروژه های واقع گرایانه به کار گیرد، از این دوره بهره مند خواهد شد. درک کاملی از مفاهیم نظری مرتبط با یادگیری تقویتی * مدل های یادگیری استاد مانند یادگیری بدون مدل، یادگیری Q، یادگیری تفاوت زمانی * مدل عدم قطعیت محیط، سیاست های تصادفی محیط، و توابع ارزش محیطی

سرفصل ها و درس ها

معرفی دوره و مدرس Introduction to Course and Instructor

معرفی دوره و مدرس Introduction to Course and Instructor

یادگیری تقویت انگیزه Motivation Reinforcement Learning

یادگیری تقویتی چیست؟ What is Reinforcement Learning
Reinforcement Learning Hiders and Seekers توسط OpenAI چیست What is Reinforcement Learning Hiders and Seekers by OpenAI
RL در مقابل سایر چارچوب های ML RL Versus Other ML Frameworks
چرا یادگیری تقویتی Why Reinforcement Learning
نمونه هایی از یادگیری تقویتی Examples of Reinforcement Learning
محدودیت های یادگیری تقویتی Limitations of Reinforcement Learning
تمرینات Exercises

اصطلاحات یادگیری تقویتی Terminology of Reinforcement Learning

محیط زیست چیست What is Environment
Environment_2 چیست What is Environment_2
عامل چیست What is Agent
ایالت چیست What is State
ایالت متعلق به محیط زیست است و نه به عامل State Belongs to Environment and not to Agent
اکشن چیست What is Action
پاداش چیست What is Reward
هدف Goal
خط مشی Policy
خلاصه Summary

مثال GridWorld GridWorld Example

راه اندازی 1 Setup 1
راه اندازی 2 Setup 2
راه اندازی 3 Setup 3
مقایسه سیاست Policy Comparison
محیط قطعی Deterministic Environment
محیط تصادفی Stochastic Environment
محیط تصادفی 2 Stochastic Environment 2
محیط تصادفی 3 Stochastic Environment 3
محیط غیر ساکن Non-Stationary Environment
خلاصه GridWorld GridWorld Summary
فعالیت Activity

پیش نیازهای فرآیند تصمیم گیری مارکوف Markov Decision Process Prerequisites

احتمال Probability
احتمال 2 Probability 2
احتمال 3 Probability 3
احتمال شرطی Conditional Probability
مثال سرگرمی احتمال شرطی Conditional Probability Fun Example
احتمال مشترک Joint Probability
احتمال مشترک 2 Joint probability 2
احتمال مشترک 3 Joint probability 3
ارزش مورد انتظار Expected Value
انتظار مشروط Conditional Expectation
مدلسازی عدم قطعیت محیط Modeling Uncertainty of Environment
مدلسازی عدم قطعیت محیط 2 Modeling Uncertainty of Environment 2
مدلسازی عدم قطعیت محیط 3 Modeling Uncertainty of Environment 3
مدلسازی عدم قطعیت سیاست تصادفی محیطی Modeling Uncertainty of Environment Stochastic Policy
مدلسازی عدم قطعیت سیاست تصادفی محیطی 2 Modeling Uncertainty of Environment Stochastic Policy 2
مدلسازی عدم قطعیت توابع ارزش محیطی Modeling Uncertainty of Environment Value Functions
میانگین های در حال اجرا Running Averages
میانگین های در حال اجرا 2 Running Averages 2
در حال اجرا میانگین ها به عنوان تفاوت زمانی Running Averages as Temporal Difference
فعالیت Activity

عناصر فرآیند تصمیم گیری مارکوف Elements of Markov Decision Process

دارایی مارکوف Markov Property
فضای ایالتی State Space
فضای اکشن Action Space
احتمالات انتقال Transition Probabilities
تابع پاداش Reward Function
عامل تخفیف Discount Factor
خلاصه Summary
فعالیت Activity

بیشتر در مورد پاداش More on Reward

آزمون MOR 1 MOR Quiz 1
راه حل آزمون MOR 1 MOR Quiz Solution 1
مسابقه MOR 2 MOR Quiz 2
راه حل آزمون MOR 2 MOR Quiz Solution 2
مقیاس بندی پاداش MOR MOR Reward Scaling
افق بی نهایت MOR MOR Infinite Horizons
آزمون MOR 3 MOR Quiz 3
راه حل آزمون MOR 3 MOR Quiz Solution 3

حل مارکوف DP Solving Markov DP

خلاصه MDP MDP Recap
توابع ارزش Value Functions
تابع ارزش بهینه Optimal Value Function
سیاست بهینه Optimal Policy
معادله بلمن Bellman Equation
تکرار ارزش Value Iteration
آزمون تکرار ارزش Value Iteration Quiz
آزمون گامای تکرار ارزش وجود ندارد Value Iteration Quiz Gamma Missing
راه حل تکرار ارزش Value Iteration Solution
مشکلات تکرار ارزش Problems of Value Iteration
ارزیابی خط مشی Policy Evaluation
ارزیابی خط مشی 2 Policy Evaluation 2
ارزیابی خط مشی 3 Policy Evaluation 3
ارزیابی خط مشی د فرم راه حل Policy Evaluation d Form Solution
تکرار خط مشی Policy Iteration
ارزش های اقدام دولت State Action Values
مقایسه V و Q V and Q Comparisons

تقریب ارزش Value Approximation

ناشناخته بودن MDP به چه معناست What Does it Mean that MDP is Unknown
چرا احتمالات انتقال مهم هستند Why Transition Probabilities are Important
راه حل های مبتنی بر مدل Model-Based Solutions
راه حل های بدون مدل Model-Free Solutions
آموزش مونت کارلو Monte-Carlo Learning
مثال یادگیری مونت کارلو Monte-Carlo Learning Example
محدودیت های یادگیری مونت کارلو Monte-Carlo Learning Limitations

تفاوت زمانی - یادگیری Q Temporal Differencing - Q Learning

میانگین در حال اجرا Running Average
میزان یادگیری Learning Rate
معادله یادگیری Learning Equation
الگوریتم TD TD Algorithm
اکتشاف در مقابل بهره برداری Exploration Versus Exploitation
سیاست حریص اپسیلون Epsilon Greedy Policy
سارسا SARSA
Q-Learning Q-Learning
اجرای Q-Learning برای MAPROVER Clipped Q-Learning Implementation for MAPROVER Clipped

تی دی لامبدا TD Lambda

N-Step Look a Head N-Step Look a Head
فرمولاسیون Formulation
ارزش های Values
TD Q-Learning TD Lambda TD Q-Learning TD Lambda
TD Q-Learning TD Lambda TD(Lambda) MAPRover Activity TD Q-Learning TD Lambda TD(Lambda) MAPRover Activity

Project Frozenlake (Open AI Gym) Project Frozenlake (Open AI Gym)

دریاچه یخ زده 1 Frozenlake 1
پیاده سازی Frozenlake Frozenlake Implementation

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش تقویتی با پایتون برای مبتدیان توضیح داده شد [ویدئو]

جزییات دوره

زمان دوره: 9 h 7 m

تعداد ویدیو ها: 105

شرکت: Packtpub

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع :

امتیاز مرجع: از 5

فایل تمرین: ندارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: AI Sciences

لینک کوتاه این دوره

https://donyad.com/d/d1bef7

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Python پایتون Data Reinforcement Learning داده ها یادگیری تقویتی

آموزش تقویتی با پایتون برای مبتدیان توضیح داده شد [ویدئو] - آخرین آپدیت

Reinforcement Learning with Python Explained for Beginners [Video]

معرفی دوره و مدرس Introduction to Course and Instructor

معرفی دوره و مدرس Introduction to Course and Instructor

یادگیری تقویت انگیزه Motivation Reinforcement Learning

یادگیری تقویتی چیست؟ What is Reinforcement Learning

Reinforcement Learning Hiders and Seekers توسط OpenAI چیست What is Reinforcement Learning Hiders and Seekers by OpenAI

RL در مقابل سایر چارچوب های ML RL Versus Other ML Frameworks

چرا یادگیری تقویتی Why Reinforcement Learning

نمونه هایی از یادگیری تقویتی Examples of Reinforcement Learning

محدودیت های یادگیری تقویتی Limitations of Reinforcement Learning

تمرینات Exercises

اصطلاحات یادگیری تقویتی Terminology of Reinforcement Learning

محیط زیست چیست What is Environment

Environment_2 چیست What is Environment_2

عامل چیست What is Agent

ایالت چیست What is State

ایالت متعلق به محیط زیست است و نه به عامل State Belongs to Environment and not to Agent

اکشن چیست What is Action

پاداش چیست What is Reward

هدف Goal

خط مشی Policy

خلاصه Summary

مثال GridWorld GridWorld Example

راه اندازی 1 Setup 1

راه اندازی 2 Setup 2

راه اندازی 3 Setup 3

مقایسه سیاست Policy Comparison

محیط قطعی Deterministic Environment

محیط تصادفی Stochastic Environment

محیط تصادفی 2 Stochastic Environment 2

محیط تصادفی 3 Stochastic Environment 3

محیط غیر ساکن Non-Stationary Environment

خلاصه GridWorld GridWorld Summary

فعالیت Activity

پیش نیازهای فرآیند تصمیم گیری مارکوف Markov Decision Process Prerequisites

احتمال Probability

احتمال 2 Probability 2

احتمال 3 Probability 3

احتمال شرطی Conditional Probability

مثال سرگرمی احتمال شرطی Conditional Probability Fun Example

احتمال مشترک Joint Probability

احتمال مشترک 2 Joint probability 2

احتمال مشترک 3 Joint probability 3

ارزش مورد انتظار Expected Value

انتظار مشروط Conditional Expectation

مدلسازی عدم قطعیت محیط Modeling Uncertainty of Environment

مدلسازی عدم قطعیت محیط 2 Modeling Uncertainty of Environment 2

مدلسازی عدم قطعیت محیط 3 Modeling Uncertainty of Environment 3

مدلسازی عدم قطعیت سیاست تصادفی محیطی Modeling Uncertainty of Environment Stochastic Policy

مدلسازی عدم قطعیت سیاست تصادفی محیطی 2 Modeling Uncertainty of Environment Stochastic Policy 2

مدلسازی عدم قطعیت توابع ارزش محیطی Modeling Uncertainty of Environment Value Functions

میانگین های در حال اجرا Running Averages

میانگین های در حال اجرا 2 Running Averages 2

در حال اجرا میانگین ها به عنوان تفاوت زمانی Running Averages as Temporal Difference

فعالیت Activity

عناصر فرآیند تصمیم گیری مارکوف Elements of Markov Decision Process

دارایی مارکوف Markov Property

فضای ایالتی State Space

فضای اکشن Action Space

احتمالات انتقال Transition Probabilities

تابع پاداش Reward Function

عامل تخفیف Discount Factor

خلاصه Summary

فعالیت Activity

بیشتر در مورد پاداش More on Reward

آزمون MOR 1 MOR Quiz 1

راه حل آزمون MOR 1 MOR Quiz Solution 1

مسابقه MOR 2 MOR Quiz 2

راه حل آزمون MOR 2 MOR Quiz Solution 2

مقیاس بندی پاداش MOR MOR Reward Scaling

افق بی نهایت MOR MOR Infinite Horizons

آزمون MOR 3 MOR Quiz 3

راه حل آزمون MOR 3 MOR Quiz Solution 3

حل مارکوف DP Solving Markov DP

خلاصه MDP MDP Recap

توابع ارزش Value Functions

تابع ارزش بهینه Optimal Value Function

سیاست بهینه Optimal Policy

معادله بلمن Bellman Equation