آموزش یادگیری تقویتی از بازخورد انسانی (RLHF)

Reinforcement Learning from Human Feedback (RLHF)

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: در این دوره ما گوشه ای از جهان در حال گسترش هوش مصنوعی را بررسی می کنیم و برخی از اصول اساسی موجود در یادگیری تقویتی از بازخورد انسانی (RLHF)، فناوری زیربنای ابزارهای عالی هوش مصنوعی مانند ChatGPT، Bard و موارد دیگر را مرور می کنیم. آیا تا به حال فکر کرده اید. چگونه ابزارهایی مانند ChatGPT و Bard قادر به ایجاد پاسخ های عالی به سوالاتی هستند که ما مطرح می کنیم؟ چگونه می‌توانند به درخواستی مانند «برنامه‌ریزی سفر به ایتالیا در پاییز امسال و پیشنهاد چیزهای عالی برای دیدن» پاسخ دهند، و پاسخی حاوی یک برنامه سفر کامل با مکان‌هایی برای دیدن، بهترین زمان برای بازدید، و سایت‌هایی که نباید داشته باشید ارائه کنند. از دست دادن؟ در این دوره آموزشی، یادگیری تقویتی از بازخورد انسانی (RLHF)، شما توانایی درک آنچه در پشت صحنه در حال وقوع است را به دست خواهید آورد تا به درخواست های خود پاسخ دهید. ابتدا، بررسی خواهید کرد که چرا داشتن تمام اطلاعات در دسترس برای ایجاد یک پاسخ عالی کافی نیست. در مرحله بعد، متوجه خواهید شد که چگونه به یک مدل یادگیری ماشینی آموزش می دهیم تا همه آن داده ها را مدیریت کند و پاسخی را ایجاد کند که مردم دوست دارند. در نهایت، شما خواهید آموخت که چگونه هیچ یک از آن جادو نیست، فقط یک مهندسی واقعا عالی توسط برخی افراد باهوش است. وقتی این دوره را به پایان رساندید، مهارت ها و دانش یادگیری تقویتی با بازخورد انسانی مورد نیاز برای درک نحوه عملکرد این مهندسی عالی و ایجاد نتایج شگفت انگیز آن را خواهید داشت.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

آشنایی با برنامه های کاربردی تولید متن Understanding Text-generative Applications

  • آشنایی با برنامه های کاربردی تولید متن Understanding Text-generative Applications

مشکل مدل GPT از پیش آموزش دیده چیست؟ What Is Wrong with the Pre-trained GPT Model?

  • مشکل مدل GPT از پیش آموزش دیده چیست؟ What Is Wrong with the Pre-trained GPT Model?

نظارت بر تنظیم دقیق Supervised Fine-tuning

  • نظارت بر تنظیم دقیق Supervised Fine-tuning

آموزش مدل پاداش Reward Model Training

  • مولفه های یادگیری تقویتی Reinforcement Learning Components

  • استفاده از یادگیری تقویتی Applying Reinforcement Learning

تنظیم دقیق از طریق یادگیری تقویتی Fine-tuning via Reinforcement Learning

  • تنظیم دقیق از طریق یادگیری تقویتی Fine-tuning via Reinforcement Learning

چالش ها و محدودیت های RLHF Challenges and Limitations of RLHF

  • چالش ها و محدودیت های RLHF Challenges and Limitations of RLHF

نمایش نظرات

آموزش یادگیری تقویتی از بازخورد انسانی (RLHF)
جزییات دوره
0h 40m
8
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
از 5
دارد
دارد
دارد
Jerry Kurata
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Jerry Kurata Jerry Kurata

جری دارای مدرک کارشناسی علوم زمین شناسی و فیزیک است. برنامه های وی برای کار در صنعت اکتشاف نفت ، هنگامی که فهمید ترجیح می دهد به جای خواندن نمونه های گِل و هسته در دریای شمال ، برای کار در شبیه سازی و پردازش داده ها با رایانه کار کند ، مورد پیگرد قرار گرفت. عشق او به رایانه و فن آوری باعث شد که وی در حالی که مدرک کارشناسی ارشد خود را در رشته علوم کامپیوتر می گیرد ، ساعتهای بیشتری را صرف کار با کامپیوتر کند. زمینه های فعلی علاقه وی شامل یادگیری ماشین ، بیگ دیتا ، سیستم های رایانه ای کوچک و پوشیدنی ، رباتیک و راه حل های ساختن است که به افراد کمک می کند. هنگامی که با کامپیوتر کار نمی کند ، جری از گذراندن وقت با خانواده اش ، مسافرت و عکس گرفتن از زیبایی های دنیای ما لذت می برد.