آموزش یادگیری تقویت‌شده از بازخورد انسانی (RLHF) - آخرین آپدیت

دانلود Reinforcement Learning from Human Feedback (RLHF)

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: آیا تا به حال فکر کرده‌اید ابزارهایی مانند ChatGPT چگونه می‌توانند پاسخ‌های فوق‌العاده‌ای به سوالات شما بدهند؟ برای مثال، چگونه در پاسخ به درخواستی مانند «یک سفر به ایتالیا برای پاییز امسال برنامه‌ریزی کن و جاهای دیدنی را پیشنهاد بده»، یک برنامه سفر کامل شامل مکان‌های دیدنی، بهترین زمان بازدید و نقاطی که نباید از دست داد را ارائه می‌دهند؟ در این دوره آموزشی با عنوان «یادگیری تقویت‌شده از بازخورد انسانی (RLHF)»، شما توانایی درک اتفاقاتی که در پشت صحنه برای ایجاد این پاسخ‌ها می‌افتد را به دست خواهید آورد. ابتدا بررسی می‌کنیم که چرا دسترسی به تمام اطلاعات موجود برای ایجاد یک پاسخ عالی کافی نیست. سپس، یاد می‌گیرید چگونه یک مدل یادگیری ماشین را آموزش دهید تا تمام آن داده‌ها را مدیریت کرده و پاسخی طراحی کند که مورد پسند کاربران باشد. در نهایت، با محدودیت‌های RLHF و نحوه رفع این محدودیت‌ها توسط «یادگیری تقویت‌شده از بازخورد هوش مصنوعی (RLAIF)» آشنا می‌شوید. در پایان این دوره، شما مهارت‌ها و دانش لازم در زمینه RLHF و RLAIF را کسب خواهید کرد تا بفهمید این مهندسی پیشرفته چگونه کار می‌کند و نتایجی شگفت‌انگیز خلق می‌کند.

سرفصل ها و درس ها

درک برنامه‌های تولید متن Understanding Text-generative Applications

  • ترانسفورمر پیش‌آموزش‌دیده مولد (GPT) Generative Pre-trained Transformer (GPT)

  • پاسخ‌ها چگونه تولید می‌شوند؟ How Are Responses Generated?

مشکل مدل‌های GPT پیش‌آموزش‌دیده چیست؟ What Is Wrong with the Pre-trained GPT Model?

  • مشکل مدل‌های GPT پیش‌آموزش‌دیده چیست؟ What Is Wrong with the Pre-trained GPT Model?

تنظیم دقیق نظارت‌شده (SFT) Supervised Fine-tuning

  • تنظیم دقیق نظارت‌شده Supervised Fine-tuning

آموزش مدل پاداش Reward Model Training

  • اجزای یادگیری تقویت‌شده Reinforcement Learning Components

  • به‌کارگیری یادگیری تقویت‌شده Applying Reinforcement Learning

تنظیم دقیق از طریق یادگیری تقویت‌شده Fine-tuning via Reinforcement Learning

  • تنظیم دقیق از طریق یادگیری تقویت‌شده Fine-tuning via Reinforcement Learning

چالش‌های RLHF و نقش RLAIF در حل آن‌ها Challenges of RLHF and How RLAIF Can Help

  • چالش‌های RLHF Challenges of RLHF

  • یادگیری تقویت‌شده از بازخورد هوش مصنوعی (RLAIF) Reinforcement Learning from AI Feedback (RLAIF)

نمایش نظرات

آموزش یادگیری تقویت‌شده از بازخورد انسانی (RLHF)
جزییات دوره
39m
9
(آخرین آپدیت)
4
از 5
دارد
دارد
دارد
Jerry Kurata
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Jerry Kurata Jerry Kurata

جری دارای مدرک کارشناسی علوم زمین شناسی و فیزیک است. برنامه های وی برای کار در صنعت اکتشاف نفت ، هنگامی که فهمید ترجیح می دهد به جای خواندن نمونه های گِل و هسته در دریای شمال ، برای کار در شبیه سازی و پردازش داده ها با رایانه کار کند ، مورد پیگرد قرار گرفت. عشق او به رایانه و فن آوری باعث شد که وی در حالی که مدرک کارشناسی ارشد خود را در رشته علوم کامپیوتر می گیرد ، ساعتهای بیشتری را صرف کار با کامپیوتر کند. زمینه های فعلی علاقه وی شامل یادگیری ماشین ، بیگ دیتا ، سیستم های رایانه ای کوچک و پوشیدنی ، رباتیک و راه حل های ساختن است که به افراد کمک می کند. هنگامی که با کامپیوتر کار نمی کند ، جری از گذراندن وقت با خانواده اش ، مسافرت و عکس گرفتن از زیبایی های دنیای ما لذت می برد.