آموزش هوش مصنوعی پیشرفته: یادگیری تقویتی عمیق در پایتون

Cutting-Edge AI: Deep Reinforcement Learning in Python

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: استفاده از یادگیری عمیق در هوش مصنوعی و یادگیری تقویتی با استفاده از استراتژی های تکامل، A2C و DDPG درک اجرای پیشرفته الگوریتم A2C (OpenAI Baselines) درک و پیاده سازی استراتژی های تکامل (ES) برای هوش مصنوعی درک و پیاده سازی DDPG (Deep Deterministic Policy Gradient) ) پیش نیازها: آشنایی با مبانی MDP (فرایندهای تصمیم گیری مارکوف) و یادگیری تقویتی مفید است که دو دوره اول آموزش تقویتی خود را دیده باشید بدانید چگونه یک شبکه عصبی کانولوشنال در تنسورفلو بسازید.

به هوش مصنوعی پیشرفته خوش آمدید!


این از نظر فنی یادگیری عمیق در پایتون قسمت 11 از سری یادگیری عمیق من و سومین دوره آموزشی تقویتی من است.

یادگیری تقویتی عمیق در واقع ترکیبی از 2 موضوع است: یادگیری تقویتی و یادگیری عمیق (شبکه های عصبی).

در حالی که هر دوی اینها مدت زیادی است که وجود داشته است، اخیراً Deep Learning و در کنار آن، Reinforcement Learning واقعاً شروع به کار کرده است.

بلوغ یادگیری عمیق باعث پیشرفت در یادگیری تقویتی شده است، که از دهه 1980 وجود داشته است، اگرچه برخی از جنبه های آن، مانند معادله بلمن، برای مدت طولانی تری وجود داشته است.


اخیراً، این پیشرفت‌ها به ما این امکان را داده است که نشان دهیم یادگیری تقویتی چقدر می‌تواند قدرتمند باشد.

ما دیده‌ایم که AlphaZero چگونه می‌تواند با استفاده از خودبازی بر بازی Go مسلط شود.

این تنها چند سال پس از آن است که AlphaGo اصلی قبلاً یک قهرمان جهان را در Go شکست داده است.


ما ربات‌های دنیای واقعی را دیده‌ایم که یاد می‌گیرند چگونه راه بروند، و حتی پس از لگد خوردن، بهبود می‌یابند، علیرغم اینکه فقط با استفاده از شبیه‌سازی آموزش دیده‌اند.

شبیه سازی خوب است زیرا به سخت افزار واقعی نیاز ندارد که گران است. اگر نماینده شما سقوط کند، هیچ آسیب واقعی وارد نشده است.


ما ربات‌های دنیای واقعی را دیده‌ایم که مهارت دست را یاد می‌گیرند، که کار کوچکی نیست.

پیاده روی یک چیز است، اما شامل حرکات خشن است. مهارت دست پیچیده است - شما درجات زیادی از آزادی دارید و بسیاری از نیروهای درگیر بسیار ظریف هستند.

تصور کنید از پای خود برای انجام کاری استفاده می کنید که معمولاً با دست خود انجام می دهید، و بلافاصله متوجه می شوید که چرا این کار دشوار است.


آخرین اما نه کم اهمیت - بازی های ویدیویی.

حتی با در نظر گرفتن چند ماه گذشته، ما شاهد پیشرفت های شگفت انگیزی بوده ایم. هوش مصنوعی اکنون بازیکنان حرفه ای را در CS:GO و Dota 2 شکست می دهد.


پس چه چیزی این دوره را با دو دوره اول متفاوت می کند؟

اکنون که می دانیم یادگیری عمیق با یادگیری تقویتی کار می کند، این سوال پیش می آید: چگونه این الگوریتم ها را بهبود بخشیم؟

این دوره چند راه مختلف را به شما نشان می‌دهد: از جمله الگوریتم قدرتمند A2C (Advantage Actor-Critic)، الگوریتم DDPG (Deep Deterministic Policy Gradient) و استراتژی‌های تکامل.

استراتژی‌های تکامل برداشتی جدید و تازه از یادگیری تقویتی است، که نوعی از نظریه‌های قدیمی را به نفع رویکرد "جعبه سیاه" تر، الهام گرفته از تکامل بیولوژیکی دور می‌اندازد.


چیزی که در مورد این دوره جدید نیز عالی است، تنوع محیط‌هایی است که می‌توانیم به آنها نگاه کنیم.

ابتدا، ما به محیط‌های کلاسیک آتاری نگاه می‌کنیم. اینها مهم هستند زیرا نشان می دهند که عوامل یادگیری تقویتی می توانند تنها بر اساس تصاویر یاد بگیرند.

دوم، ما به MuJoCo که یک شبیه‌ساز فیزیک است نگاه می‌کنیم. این اولین قدم برای ساختن رباتی است که می تواند در دنیای واقعی حرکت کند و فیزیک را درک کند - ابتدا باید نشان دهیم که می تواند با فیزیک شبیه سازی شده کار کند.

در نهایت، می‌خواهیم به Flappy Bird، بازی موبایل مورد علاقه همه چند سال پیش نگاه کنیم.


از اینکه خواندید متشکرم، و شما را در کلاس می بینم!


"اگر نمی توانید آن را پیاده سازی کنید، آن را درک نمی کنید"

  • یا همانطور که فیزیکدان بزرگ ریچارد فاینمن گفت: "آنچه را که نمی توانم خلق کنم، نمی فهمم".

  • دوره‌های من تنها دوره‌هایی هستند که در آنها نحوه پیاده‌سازی الگوریتم‌های یادگیری ماشین را از ابتدا یاد خواهید گرفت

  • دوره‌های دیگر به شما یاد می‌دهند که چگونه داده‌های خود را به کتابخانه وصل کنید، اما آیا واقعاً برای 3 خط کد به کمک نیاز دارید؟

  • پس از انجام همان کار با 10 مجموعه داده، متوجه می شوید که 10 چیز را یاد نگرفته اید. شما یک چیز یاد گرفتید و فقط همان 3 خط کد را 10 بار تکرار کردید...


پیش نیازهای پیشنهادی:

  • حساب

  • احتمال

  • برنامه نویسی شی گرا

  • کدنویسی پایتون: if/else، حلقه‌ها، فهرست‌ها، دستورات، مجموعه‌ها

  • کدگذاری Numpy: عملیات ماتریس و برداری

  • رگرسیون خطی

  • نزول شیب

  • با نحوه ایجاد یک شبکه عصبی کانولوشن (CNN) در TensorFlow آشنا شوید

  • فرآیندهای تصمیم گیری مارکوف (MDP)


به چه ترتیبی باید در دوره های شما شرکت کنم؟:

  • سخنرانی "نقشه راه پیش نیاز یادگیری ماشین و هوش مصنوعی" (در پرسش‌های متداول هر یک از دوره‌های من، از جمله دوره رایگان Numpy موجود است) را بررسی کنید.


ویژگی های منحصر به فرد

  • هر خط کد با جزئیات توضیح داده شده است - در صورت مخالفت هر زمان که خواستید به من ایمیل بزنید

  • همانند سایر دوره‌ها، زمان را تلف نمی‌کنید - بیایید صادق باشیم، هیچ‌کس واقعاً نمی‌تواند کدی بنویسد که ارزش یادگیری آن را تنها در 20 دقیقه از ابتدا داشته باشد

  • از ریاضیات در سطح دانشگاه نمی ترسید - جزئیات مهمی را در مورد الگوریتم هایی که سایر دوره ها کنار گذاشته اند دریافت کنید


سرفصل ها و درس ها

خوش آمدی Welcome

  • معرفی Introduction

  • طرح کلی Outline

  • کد را از کجا دریافت کنیم Where to get the code

مروری بر مفاهیم یادگیری تقویتی بنیادی Review of Fundamental Reinforcement Learning Concepts

  • بررسی بخش مقدمه Review Section Introduction

  • معضل کاوش- بهره برداری The Explore-Exploit Dilemma

  • فرآیندهای تصمیم گیری مارکوف (MDPs) Markov Decision Processes (MDPs)

  • روش های مونت کارلو Monte Carlo Methods

  • یادگیری تفاوت زمانی (TD) Temporal Difference Learning (TD)

  • OpenAI Gym Warmup OpenAI Gym Warmup

  • خلاصه بخش بررسی Review Section Summary

  • صندوق پیشنهادات Suggestion Box

A2C (بازیگر-نقد برتر) A2C (Advantage Actor-Critic)

  • مقدمه بخش A2C A2C Section Introduction

  • نظریه A2C (قسمت 1) A2C Theory (part 1)

  • نظریه A2C (قسمت 2) A2C Theory (part 2)

  • نظریه A2C (بخش 3) A2C Theory (part 3)

  • نسخه ی نمایشی A2C A2C Demo

  • کد A2C - طرح خشن A2C Code - Rough Sketch

  • فرآیندهای چندگانه Multiple Processes

  • لفاف های محیطی Environment Wrappers

  • شبکه عصبی کانولوشنال Convolutional Neural Network

  • A2C A2C

  • خلاصه بخش A2C A2C Section Summary

DDPG (شیب سیاست قطعی عمیق) DDPG (Deep Deterministic Policy Gradient)

  • مقدمه بخش DDPG DDPG Section Introduction

  • بررسی عمیق Q-Learning (DQN). Deep Q-Learning (DQN) Review

  • نظریه DDPG DDPG Theory

  • MuJoCo MuJoCo

  • کد DDPG (قسمت 1) DDPG Code (part 1)

  • کد DDPG (قسمت 2) DDPG Code (part 2)

  • خلاصه بخش DDPG DDPG Section Summary

ES (استراتژی های تکامل) ES (Evolution Strategies)

  • مقدمه بخش ES ES Section Introduction

  • نظریه ES ES Theory

  • نکاتی در مورد استراتژی های تکامل Notes on Evolution Strategies

  • ES برای بهینه سازی یک تابع ES for Optimizing a Function

  • ES برای یادگیری نظارت شده ES for Supervised Learning

  • فلپی برد Flappy Bird

  • ES برای Flappy Bird در کد ES for Flappy Bird in Code

  • ES برای MuJoCo در کد ES for MuJoCo in Code

  • خلاصه بخش ES ES Section Summary

تنظیم محیط شما (سؤالات متداول بر اساس درخواست دانشجو) Setting Up Your Environment (FAQ by Student Request)

  • تنظیم محیط آناکوندا Anaconda Environment Setup

  • نحوه نصب Numpy، Scipy، Matplotlib، Pandas، IPython، Theano و TensorFlow How to install Numpy, Scipy, Matplotlib, Pandas, IPython, Theano, and TensorFlow

کمک اضافی برای کدنویسی پایتون برای مبتدیان (سؤالات متداول بر اساس درخواست دانشجو) Extra Help With Python Coding for Beginners (FAQ by Student Request)

  • نحوه کدنویسی توسط خودتان (قسمت 1) How to Code by Yourself (part 1)

  • چگونه به تنهایی کدنویسی کنیم (قسمت 2) How to Code by Yourself (part 2)

  • اثبات اینکه استفاده از نوت بوک Jupyter همان استفاده نکردن از آن است Proof that using Jupyter Notebook is the same as not using it

  • پایتون 2 در مقابل پایتون 3 Python 2 vs Python 3

استراتژی‌های یادگیری مؤثر برای یادگیری ماشین (سؤالات متداول بر اساس درخواست دانشجو) Effective Learning Strategies for Machine Learning (FAQ by Student Request)

  • چگونه در این دوره موفق شویم (نسخه طولانی) How to Succeed in this Course (Long Version)

  • این برای مبتدیان است یا متخصصان؟ علمی یا عملی؟ سریع یا کند؟ Is this for Beginners or Experts? Academic or Practical? Fast or slow-paced?

  • نقشه راه پیش نیاز یادگیری ماشین و هوش مصنوعی (نقطه 1) Machine Learning and AI Prerequisite Roadmap (pt 1)

  • نقشه راه پیش نیاز یادگیری ماشین و هوش مصنوعی (نقطه 2) Machine Learning and AI Prerequisite Roadmap (pt 2)

ضمیمه/سوالات متداول نهایی Appendix / FAQ Finale

  • آپاندیس چیست؟ What is the Appendix?

  • جایزه BONUS

نمایش نظرات

Udemy (یودمی)

یودمی یکی از بزرگ‌ترین پلتفرم‌های آموزشی آنلاین است که به میلیون‌ها کاربر در سراسر جهان امکان دسترسی به دوره‌های متنوع و کاربردی را فراهم می‌کند. این پلتفرم امکان آموزش در زمینه‌های مختلف از فناوری اطلاعات و برنامه‌نویسی گرفته تا زبان‌های خارجی، مدیریت، و هنر را به کاربران ارائه می‌دهد. با استفاده از یودمی، کاربران می‌توانند به صورت انعطاف‌پذیر و بهینه، مهارت‌های جدیدی را یاد بگیرند و خود را برای بازار کار آماده کنند.

یکی از ویژگی‌های برجسته یودمی، کیفیت بالای دوره‌ها و حضور استادان مجرب و با تجربه در هر حوزه است. این امر به کاربران اعتماد می‌دهد که در حال دریافت آموزش از منابع قابل اعتماد و معتبر هستند و می‌توانند به بهترین شکل ممکن از آموزش‌ها بهره ببرند. به طور خلاصه، یودمی به عنوان یکی از معتبرترین و موثرترین پلتفرم‌های آموزشی آنلاین، به افراد امکان می‌دهد تا به راحتی و با کیفیت، مهارت‌های مورد نیاز خود را ارتقا دهند و به دنبال رشد و پیشرفت شغلی خود باشند.

آموزش هوش مصنوعی پیشرفته: یادگیری تقویتی عمیق در پایتون
جزییات دوره
8.5 hours
50
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
28,137
4.7 از 5
ندارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Lazy Programmer Inc. Lazy Programmer Inc.

امروز ، بیشتر وقتم را به عنوان یک مهندس هوش مصنوعی و یادگیری ماشین با تمرکز بر یادگیری عمیق می گذرانم ، اگرچه همچنین به عنوان دانشمند داده ، مهندس داده های بزرگ و مهندس نرم افزار کامل پشته نیز شناخته شده ام. من مدرک کارشناسی ارشد خود را در رشته مهندسی کامپیوتر با گرایش یادگیری ماشین و تشخیص الگو دریافت کردم. این تجربه شامل تبلیغات آنلاین و رسانه های دیجیتالی به عنوان دانشمند داده (بهینه سازی نرخ کلیک و تبدیل) و مهندس داده های بزرگ (ساخت خطوط لوله پردازش داده) است. برخی از فناوری های کلان داده ای که من مرتباً استفاده می کنم ، Hadoop ، Pig ، Hive ، MapReduce و Spark هستند. من مدل های یادگیری عمیق را برای پیش بینی میزان کلیک و رفتار کاربر و همچنین برای پردازش تصویر و سیگنال و مدل سازی متن ایجاد کرده ام. کار من در سیستم های پیشنهادی از آموزش تقویت و فیلتر کردن مشارکتی استفاده کرده است و ما نتایج را با استفاده از تست A / B معتبر کردیم.