آموزش هوش مصنوعی چهارم - یادگیری تقویتی در جاوا

Artificial Intelligence IV - Reinforcement Learning in Java

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
توضیحات دوره: همه آنچه باید در مورد فرآیندهای تصمیم گیری مارکوف، ارزش و سیاست گذاری و همچنین در مورد رویکرد یادگیری Q بدانید درک یادگیری تقویتی درک فرآیندهای تصمیم گیری مارکوف درک ارزش و تکرار سیاست درک رویکرد یادگیری Q و کاربردهای آن پیش نیازها:Basics AI دانش: شبکه های عصبی در اصل

این دوره در مورد یادگیری تقویتی است. اولین قدم این است که درباره پیشینه ریاضی صحبت کنیم: می‌توانیم از فرآیند تصمیم‌گیری مارکوف به عنوان مدلی برای یادگیری تقویتی استفاده کنیم. ما می توانیم مشکل را از 3 راه حل کنیم: تکرار ارزش، تکرار سیاست و یادگیری Q. یادگیری Q یک رویکرد بدون مدل است، بنابراین رویکردی پیشرفته است. سیاست بهینه را با تعامل با محیط می آموزد. بنابراین این موضوعات هستند:

  •  فرایندهای تصمیم مارکوف
  •  تکرار ارزش و تکرار خط مشی
  • اصول یادگیری Q
  • الگوریتم های مسیریابی با یادگیری Q
  • یادگیری Q با شبکه های عصبی

سرفصل ها و درس ها

معرفی Introduction

  • معرفی Introduction

  • انواع یادگیری Types of learning

  • کاربردهای یادگیری تقویتی Applications of reinforcement learning

نظریه فرآیند تصمیم گیری مارکوف (MDP). Markov Decision Process (MDP) Theory

  • مبانی فرآیندهای تصمیم مارکوف I Markov decision processes basics I

  • مبانی فرآیندهای تصمیم مارکوف II Markov decision processes basics II

  • فرآیندهای تصمیم مارکوف - معادلات Markov decision processes - equations

  • فرآیندهای تصمیم مارکوف - تصویر Markov decision processes - illustration

  • معادله بلمن Bellman-equation

  • چگونه مشکلات MDP را حل کنیم؟ How to solve MDP problems?

  • فرمول ریاضی یادگیری تقویتی Mathematical formulation of reinforcement learning

  • آزمون مبانی یادگیری تقویتی Reinforcement Learning Basics Quiz

فرآیند تصمیم گیری مارکوف - تکرار ارزش Markov Decision Process - Value Iteration

  • تکرار ارزش چیست؟ What is value iteration?

  • اجرای تکرار ارزش I Value iteration implementation I

  • اجرای تکرار ارزش II Value iteration implementation II

  • اجرای تکرار ارزش III Value iteration implementation III

  • اجرای تکرار ارزش IV Value iteration implementation IV

  • اجرای تکرار ارزش V Value iteration implementation V

فرآیند تصمیم گیری مارکوف - تکرار سیاست Markov Decision Process - Policy Iteration

  • تکرار سیاست چیست؟ What is policy iteration?

  • تکرار ارزش در مقابل تکرار سیاست Value iteration vs policy iteration

نظریه یادگیری Q Q Learning Theory

  • مقدمه یادگیری Q Q learning introduction

  • مقدمه یادگیری Q - الگوریتم Q learning introduction - the algorithm

  • تصویر یادگیری Q Q learning illustration

  • فرمول بندی ریاضی یادگیری کیو Mathematical formulation of Q learning

  • آزمون یادگیری Q Q Learning Quiz

مسیریابی با Q-Learning Pathfinding with Q-Learning

  • ---- راه یابی ---- ---- PATHFINDING ----

  • مسیریابی با یادگیری Q I Pathfinding with Q-learning I

  • مسیریابی با یادگیری Q II Pathfinding with Q-learning II

  • مسیریابی با یادگیری Q III Pathfinding with Q-learning III

  • مسیریابی با یادگیری Q-IV Pathfinding with Q-learning IV

  • ---- کوتاه ترین راه ---- ---- SHORTEST PATH ----

  • کوتاه ترین مسیر با یادگیری کیو Shortest path with Q-learning

مشکل اکتشاف در مقابل بهره برداری Exploration vs. Exploitation Problem

  • مشکل اکتشاف در مقابل استثمار Exploration vs exploitation problem

  • معرفی مشکل راهزن مسلح N N-armed bandit problem introduction

  • پیاده سازی مشکل راهزن مسلح N-I N-armed bandit problem implementation I

  • پیاده سازی مشکل راهزن مسلح N II N-armed bandit problem implementation II

  • کاربردها: تست A/B در بازاریابی Applications: A/B testing in marketing

  • مسابقه اکتشاف در مقابل بهره برداری Exploration vs. Exploitation Quiz

نظریه یادگیری تقویتی عمیق Deep Reinforcement Learning Theory

  • یادگیری عمیق Q چیست؟ What is deep Q learning?

  • یادگیری دیپ کیو و استراتژی ε-غریب Deep Q learning and ε-greedy strategy

  • مقدمه یادگیری عمیق Q - به خاطر بسپارید و دوباره پخش کنید Deep Q-learning introduction - remember and replay

  • فرمول ریاضی یادگیری عمیق کیو Mathematical formulation of deep Q learning

  • مسابقه یادگیری عمیق Q Deep Q Learning Quiz

مواد درسی (دانلود) Course Materials (DOWNLOADS)

  • مواد درسی Course materials

نمایش نظرات

نظری ارسال نشده است.

آموزش هوش مصنوعی چهارم - یادگیری تقویتی در جاوا
خرید اشتراک و دانلود خرید تکی و دانلود | 160,000 تومان (5 روز مهلت دانلود) زمان تقریبی آماده سازی لینک دانلود این دوره آموزشی حدود 5 تا 24 ساعت می باشد.
جزییات دوره
3 hours
39
Udemy (یودمی) udemy-small
26 آذر 1400 (آخرین آپدیت رو دریافت می‌کنید، حتی اگر این تاریخ بروز نباشد.)
1,775
4.9 از 5
دارد
دارد
دارد

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Holczer Balazs Holczer Balazs

مهندس نرم افزار

Udemy (یودمی)

یودمی یکی از بزرگ‌ترین پلتفرم‌های آموزشی آنلاین است که به میلیون‌ها کاربر در سراسر جهان امکان دسترسی به دوره‌های متنوع و کاربردی را فراهم می‌کند. این پلتفرم امکان آموزش در زمینه‌های مختلف از فناوری اطلاعات و برنامه‌نویسی گرفته تا زبان‌های خارجی، مدیریت، و هنر را به کاربران ارائه می‌دهد. با استفاده از یودمی، کاربران می‌توانند به صورت انعطاف‌پذیر و بهینه، مهارت‌های جدیدی را یاد بگیرند و خود را برای بازار کار آماده کنند.

یکی از ویژگی‌های برجسته یودمی، کیفیت بالای دوره‌ها و حضور استادان مجرب و با تجربه در هر حوزه است. این امر به کاربران اعتماد می‌دهد که در حال دریافت آموزش از منابع قابل اعتماد و معتبر هستند و می‌توانند به بهترین شکل ممکن از آموزش‌ها بهره ببرند. به طور خلاصه، یودمی به عنوان یکی از معتبرترین و موثرترین پلتفرم‌های آموزشی آنلاین، به افراد امکان می‌دهد تا به راحتی و با کیفیت، مهارت‌های مورد نیاز خود را ارتقا دهند و به دنبال رشد و پیشرفت شغلی خود باشند.