اگر قرار است یادگیری تقویتی به عنوان مسیری مناسب برای هوش مصنوعی عمومی عمل کند، باید یاد بگیرد که با محیطهایی با پاداشهای کم یا کاملاً غایب کنار بیاید. اکثر سیستمهای زندگی واقعی پاداشهایی را ارائه میکنند که تنها پس از چند مرحله زمانی اتفاق میافتند، و عامل را با اطلاعات کمی برای ایجاد یک خطمشی موفق باقی میگذارند. یادگیری تقویتی مبتنی بر کنجکاوی این مشکل را با ایجاد حس کنجکاوی ذاتی در مورد دنیای خود به عامل حل میکند و او را قادر میسازد تا خطمشیهای موفق برای پیمایش در جهان را کشف و یاد بگیرد.
در این دوره پیشرفته در زمینه یادگیری تقویتی عمیق، دانش آموزان با انگیزه یاد می گیرند که چگونه مقالات تحقیقاتی هوش مصنوعی پیشرفته را از ابتدا پیاده سازی کنند. این یک دوره سریع برای کسانی است که در کدنویسی عوامل منتقد بازیگر به تنهایی تجربه دارند. ما دو مقاله را در این دوره با استفاده از چارچوب محبوب PyTorch کدنویسی می کنیم.
مقاله اول روش های ناهمزمان برای یادگیری تقویتی عمیق را پوشش می دهد. همچنین به عنوان الگوریتم منتقد مزیت ناهمزمان محبوب (A3C) شناخته می شود. در اینجا دانشآموزان چارچوب جدیدی برای یادگیری پیدا میکنند که به GPU نیاز ندارد. ما یاد خواهیم گرفت که چگونه Multithreading را در پایتون پیاده سازی کنیم و از آن برای آموزش چندین عامل منتقد بازیگر به طور موازی استفاده کنیم. ما از اجرای اولیه مقاله فراتر خواهیم رفت و بهبود اخیر را برای یادگیری تقویتی به نام برآورد مزیت تعمیم یافته اجرا می کنیم. ما نمایندگان خود را در محیط Pong از کتابخانه آتاری Open AI Gym آزمایش خواهیم کرد و تنها در چند ساعت به عملکرد تقریباً کلاس جهانی خواهیم رسید.
از آنجا به قلب دوره میرویم: یادگیری در محیطهایی با پاداشهای کم یا کاملاً غایب. این پارادایم جدید از کنجکاوی عامل در مورد محیط به عنوان یک پاداش ذاتی استفاده می کند که عامل را به کشف و یادگیری مهارت های قابل تعمیم ترغیب می کند. ما ماژول کنجکاوی ذاتی (ICM) را پیاده سازی خواهیم کرد، که یک ماژول پیچ و مهره ای برای هر الگوریتم یادگیری تقویتی عمیق است. ما عامل خود را در محیطی مانند پیچ و خم آموزش خواهیم داد و آزمایش خواهیم کرد که فقط زمانی پاداش می دهد که عامل به هدف برسد. یک افزایش عملکرد واضح نسبت به الگوریتم وانیلی A3C نشان داده خواهد شد، که به طور قطعی قدرت یادگیری تقویتی عمیق مبتنی بر کنجکاوی را نشان می دهد.
لطفاً به خاطر داشته باشید که این یک دوره سریع برای دانش آموزان با انگیزه و پیشرفته است. فقط یک بررسی بسیار مختصر از مفاهیم اساسی یادگیری تقویتی و روشهای منتقد بازیگر انجام خواهد شد و از آنجا مستقیماً به خواندن و اجرای مقالات خواهیم پرداخت.
زیبایی هر دو روش ICM و ناهمزمان در این است که این پارادایم ها را می توان تقریباً برای هر الگوریتم یادگیری تقویتی دیگری اعمال کرد. هر دو بسیار قابل انطباق هستند و می توانند با تغییرات اندکی به الگوریتم هایی مانند بهینه سازی خط مشی پروگزیمال، منتقد بازیگر نرم، یا یادگیری عمیق Q متصل شوند.
دانش آموزان یاد خواهند گرفت که چگونه:
مقالات یادگیری تقویتی عمیق را اجرا کنید
از CPUهای چند هسته ای با پردازش موازی در پایتون استفاده کنید
الگوریتم A3C را از ابتدا کدنویسی کنید
ICM را از اصول اولیه کدنویسی کنید
تخمین مزیت تعمیم یافته کد
کتابخانه Open AI Gym Atari
را تغییر دهیدکد ماژولار قابل توسعه بنویسید
این دوره با پیاده سازی PyTorch راه اندازی می شود و نسخه Tensorflow 2 در راه است.
من شما را در داخل می بینم.
مهندس یادگیری ماشین
نمایش نظرات