لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش الگوریتم های راهزن چند مسلح عملی در پایتون
Practical Multi-Armed Bandit Algorithms in Python
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
مهارت هایی را برای ساخت عوامل هوش مصنوعی دیجیتالی که قادر به اتخاذ تصمیمات تجاری حیاتی در شرایط عدم قطعیت هستند، به دست آورید. درک و توانایی شناسایی مشکلات راهزن چند مسلح. مدل سازی مشکلات واقعی کسب و کار به عنوان MAB و پیاده سازی عوامل هوش مصنوعی دیجیتال برای خودکارسازی آنها. درک چالش RL در مورد معضل اکتشاف- بهره برداری. اجرای عملی استراتژی های مختلف الگوریتمی برای ایجاد تعادل بین اکتشاف و بهره برداری پیاده سازی پایتون از استراتژی اپسیلون حریص. اجرای استراتژی Softmax Exploration توسط پایتون. پیاده سازی پایتون از استراتژی اولیه سازی خوش بینانه. پیاده سازی پایتون از استراتژی مرزهای اطمینان بالا (UCB). چالش های RL را از نظر طراحی توابع پاداش و کارایی نمونه درک کنید. برآورد مقادیر عمل از طریق نمونه گیری افزایشی. پیش نیازها: قادر به درک برنامه های اولیه OOP در پایتون باشید. دانش اولیه Numpy و Matplotlib را داشته باشید. مهارت های اساسی جبر. اگر میدانید چگونه اعداد را جمع، تفریق، ضرب و تقسیم کنید، میتوانید ادامه دهید.
این دوره نقطه ورود کامل شما به حوزه مهیج یادگیری تقویتی است که در آن عوامل هوش مصنوعی دیجیتالی ساخته شده اند تا به طور خودکار نحوه تصمیم گیری متوالی را از طریق آزمون و خطا بیاموزند. به طور خاص، این دوره بر مشکلات راهزن چند مسلح و اجرای عملی استراتژیهای الگوریتمی مختلف برای ایجاد تعادل بین اکتشاف و بهرهبرداری متمرکز است. هر زمان که بخواهید به طور مداوم بهترین انتخاب را از بین تعداد محدودی از گزینه ها در طول زمان انجام دهید، با یک مشکل راهزن چند مسلح سروکار دارید و این دوره تمام جزئیاتی را که باید بدانید تا بتوانید نمایندگی های تجاری واقع گرایانه ای برای مدیریت آن داشته باشید را به شما آموزش می دهد. چنین موقعیت هایی.
با توضیحات بسیار مختصر، این دوره به شما می آموزد که چگونه با اطمینان فرمول های ریاضی به ظاهر ترسناک را بدون دردسر به کد پایتون ترجمه کنید. ما می دانیم که بسیاری از ما از نظر فنی در موضوع ریاضی مهارت نداریم، بنابراین این درس عمداً از ریاضیات دور می ماند مگر اینکه ضروری باشد. و حتی زمانی که نیاز به صحبت در مورد ریاضیات می شود، رویکردی که در این دوره در نظر گرفته می شود به گونه ای است که هر کسی با مهارت های پایه جبر می تواند ریاضیات را درک کند و مهمتر از همه به راحتی ریاضیات را به کد تبدیل کند و شهودهای مفیدی در این فرآیند ایجاد کند.
برخی از استراتژی های الگوریتمی آموزش داده شده در این دوره عبارتند از: اپسیلون گریدی، کاوش سافت مکس، ابتدایی سازی خوش بینانه، مرزهای اطمینان بالا و نمونه برداری تامپسون. با استفاده از این ابزارها، شما به اندازه کافی مجهز هستید تا به راحتی عوامل هوش مصنوعی بسازید و به کار بگیرید که می توانند عملیات مهم تجاری را در شرایط عدم قطعیت اداره کنند.
برای پر کردن شکاف بین تئوری و کاربرد، این دوره آموزشی را بهروزرسانی کردهام تا شامل بخشی باشد که در آن نحوه اعمال الگوریتمهای MAB در رباتیک با استفاده از EV3 Mindstorm را نشان میدهم. من به زودی بخشی را آپلود خواهم کرد که نحوه اعمال الگوریتم های آموزش داده شده در این دوره را برای بهینه سازی تبلیغات نشان می دهد.
سرفصل ها و درس ها
سخنرانی های دوره
Course Lectures
مقدمه ای بر یادگیری تقویتی و مشکلات راهزن چند مسلح
Introduction to Reinforcement Learning & Multi-Armed Bandit Problems
مشکلات راهزن چند مسلح
Multi-Armed Bandit Problems
پیاده سازی محیط های شبیه سازی شده MAB در پایتون
Implementing Simulated MAB Environments in Python
برآورد ارزش های اقدام از طریق نمونه گیری
Estimating Action Values Through Sampling
پیاده سازی میانگین افزایشی در کد
Implementing Incremental Average In Code
اجرای میانگین افزایشی برای راهزنان غیر ثابت
Implementing Incremental Average For Non-Stationary Bandits
ساخت یک عامل پایه که به صورت تصادفی رفتار می کند
Building A Baseline Agent That Behaves Randomly
چرا نتایج قابل تکرار نیستند؟
Why Are The Results Not Repeatable?
استفاده از میانگین افزایشی برای تخمین مقادیر عمل
Using Incremental Average To Estimate Action Values
پیاده سازی و تجزیه و تحلیل یک عامل حریص
Implementing And Analysing A Greedy Agent
متعادل کردن اکتشاف و بهره برداری با عوامل حریص اپسیلون
Balancing Exploration & Exploitation With Epsilon Greedy Agents
کنترل اکتشاف با پوسیدگی
Controlling Exploration With A Decay
کاوش هوشمند با Softmax Exploration
Exploring Intelligently With Softmax Exploration
خوشبین بودن در شرایط عدم قطعیت
Being Optimistic Under Uncertainties
خوش بینی واقع بینانه در شرایط عدم قطعیت
Realistic Optimism Under Uncertainties
استراتژی هایی برای متعادل کردن اکتشاف و بهره برداری
Strategies For Balancing Exploration & Exploitation
کاربرد MAB در رباتیک
Applying MAB In Robotics
معرفی
Introduction
یادگیری تقویتی چیست؟
What is Reinforcement Learning
گردش کار یادگیری تقویتی
The Reinforcement Learning Workflow
یادگیری تقویتی در زمینه رباتیک
Reinforcement Learning In A Robotics Context
الگوریتم راهزن چند مسلح
The Multi-Armed Bandit Algorithm
اطلاعات بیشتر درباره الگوریتم راهزن چند مسلح
More About The Multi-Armed Bandit Algorithm
ایجاد تعادل بین اکتشاف و بهره برداری
Balancing Exploration & Exploitation
استفاده از الگوریتم راهزن چند مسلح در رباتیک
Using The Multi-Armed Bandit Algorithm In Robotics
پیاده سازی الگوریتم راهزن چند مسلح در EV3 Mindstorm
Implementing The Multi-Armed Bandit Algorithm on EV3 Mindstorm
نسخه ی نمایشی و توضیح رفتار ربات
Demo & Explanation Of The Behaviour Of The Robot
نمایش نظرات