آموزش شروع کار با Gymnasium - آخرین آپدیت

دانلود Getting Started with Gymnasium

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: یادگیری تقویت‌شده بدون ابزارهای مناسب و درک درست از نحوه تعامل عامل‌ها با محیط، می‌تواند چالش‌برانگیز باشد. در این دوره آموزشی با عنوان «شروع کار با Gymnasium»، شما خواهید آموخت که چگونه از Gymnasium برای طراحی و اجرای محیط‌های شبیه‌سازی، آموزش عامل‌های یادگیری تقویت‌شده و به‌کارگیری استراتژی‌های تصمیم‌گیری برای حل مسائل کاربردی استفاده کنید. در ابتدا، نحوه ایجاد و پیکربندی محیط‌های Gymnasium را بررسی کرده و با نقش عامل‌ها و محیط‌ها و چگونگی ارتباط آن‌ها از طریق اکشن‌ها (Actions)، مشاهدات (Observations) و پاداش‌ها (Rewards) آشنا می‌شوید. سپس، عامل‌هایی را با استفاده از روش‌های گرادیان سیاست (Policy Gradient) و روش‌های مبتنی بر مقدار (Value-based)، از جمله شبکه Q عمیق (Deep Q-Network) برای حل محیط `CartPole` ساخته و آموزش می‌دهید و یاد می‌گیرید که چگونه عملکرد آن‌ها را با ابزارها و Wrapperهای Gymnasium ارزیابی و بصری‌سازی کنید. در نهایت، یاد می‌گیرید که چگونه رویکرد Multi-armed Bandit را در یک سناریوی تست A/B واقعی با استفاده از نمونه‌برداری تامپسون (Thompson Sampling) پیاده‌سازی کنید و از تکنیک‌های دیباگینگ، لاگ‌گیری و مانیتورینگ برای اطمینان از رفتار پایدار و قابل اعتماد عامل استفاده نمایید. پس از اتمام این دوره، شما مهارت‌ها و دانش لازم برای استفاده با اعتمادبه‌نفس از Gymnasium جهت توسعه، تست و بهینه‌سازی عامل‌های یادگیری تقویت‌شده برای طیف گسترده‌ای از کاربردها را به‌دست خواهید آورد.

سرفصل ها و درس ها

ایجاد و درک محیط‌های شبیه‌سازی در Gymnasium Creating and Understanding Simulation Environments in Gymnasium

  • نقش عامل و محیط Roles of the Agent and the Environment

  • ایجاد، بررسی و تعامل با محیط Gymnasium Creating, Exploring, and Interacting with a Gymnasium Environment

ساخت و آموزش عامل‌های یادگیری تقویت‌شده Building and Training Reinforcement Learning Agents

  • پیاده‌سازی یک عامل ساده با گرادیان سیاست Implementing a Simple Policy Gradient Agent

  • درک مقادیر Q Understanding Q-Values

  • نمایش یادگیری Q جدولی در محیط Taxi V3 Demonstrating Tabular Q-Learning in Taxi-V3

  • استفاده از شبکه‌های Q عمیق برای حل CartPole Using Deep Q-Networks to Solve CartPole

به‌کارگیری Multi-armed Bandits، محیط‌های سفارشی و بهترین روش‌ها Applying Multi-armed Bandits, Custom Environments, and Best Practices

  • درک و پیاده‌سازی نمونه‌برداری تامپسون برای Multi-armed Bandits در محیط سفارشی Understanding and Implementing Thompson Sampling for Multi-armed Bandits in a Custom Environment

  • دیباگینگ، مانیتورینگ و تضمین نتایج قابل اعتماد Debugging, Monitoring, and Ensuring Reliable Results

نمایش نظرات

آموزش شروع کار با Gymnasium
جزییات دوره
42m
8
(آخرین آپدیت)
3
از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Nicolae Caprarescu Nicolae Caprarescu

نیکولای که اکنون یک مشاور مستقل است ، کار خود را از سال 2013 به عنوان مهندس نرم افزار آغاز کرد. طی سالهای گذشته ، نیکولای روی سیستم هایی از موتورهای تجاری جاوا با فرکانس بالا گرفته تا برنامه های مختلف برای شرکت های نوپا کار می کرد. نقش های فنی نیکولای همیشه کاملاً پشته بوده است ، که بیشتر اوقات بر روی انتهای جاوا و جلویی های تحت وب متمرکز بوده است: Java، Spring، JDBC، SQL، Maven، Gradle، TeamCity، Jenkins، TDD، JUnit، تست اتوماتیک ، جاوا اسکریپت ، سلنیوم و RESTful. علایق فنی نیکولای شامل یادگیری ماشین ، معماری نرم افزار و یافتن تعادل مناسب بین استفاده از زبان های تایپ شده ثابت در برابر زبان های تایپ شده پویا است. نیکولای همچنین از استقبال تیمها با پذیرفتن ارزشهای Agile و القا آنها به هر تیمی که بتواند ، لذت می برد. نیکولای دارای مدرک لیسانس درجه یک در رشته علوم کامپیوتر از دانشگاه منچستر است ، و در آنجا اشتیاق خود را برای تدریس هنگام راهنمایی سایر دانشجویان کشف کرد. نیکولای همچنین از مسافرت و اتومبیلرانی لذت می برد.