آموزش بهینه‌سازی مدل زبانی بزرگ (LLM) با یادگیری تقویتی: روش DeepSeek، الگوریتم GRPO - آخرین آپدیت

دانلود LLM Reinforcement Learning Fine-Tuning DeepSeek Method GRPO

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

بهینه‌سازی و یادگیری تقویتی مدل‌های زبانی بزرگ (LLM) با SFT، LoRA، DPO و GRPO با استفاده از داده‌های سفارشی Hugging Face

در این دوره، اصول اساسی مدل‌های زبانی بزرگ (LLM) و ساختار کلی فرآیندهای آموزش آن‌ها را فرا خواهید گرفت.

تفاوت بین مدل‌های پایه و مدل‌های آموزشی، و همچنین روش‌های آماده‌سازی داده‌ها برای هر یک را خواهید آموخت.

تکنیک‌های پیش‌پردازش داده همراه با نکات ضروری، نحوه شناسایی توکن‌های خاص مورد نیاز مدل‌ها، درک فرمت‌های داده و روش‌ها را خواهید آموخت.

تجربه عملی و دانش دقیقی از نحوه عملکرد LoRA و Data Collator به دست خواهید آورد.

درک دقیقی از ابرپارامترهای حیاتی مورد استفاده در آموزش، از جمله هدف و نحوه عملکرد آن‌ها به دست خواهید آورد.

به طور عملی، به تفصیل، نحوه ادغام ماتریس‌های LoRA آموزش‌دیده با مدل پایه، و همچنین ملاحظات کلیدی و بهترین شیوه‌هایی که باید در طول آن دنبال کنید را خواهید آموخت.

خواهید آموخت که بهینه‌سازی مستقیم ترجیحات (DPO) چیست، چگونه کار می‌کند، فرمت داده مورد انتظار چیست و سناریوهای خاصی که در آن استفاده می‌شود.

ملاحظات کلیدی هنگام آماده‌سازی داده‌ها برای DPO و همچنین درک نحوه عملکرد داده‌ساز DPO را خواهید آموخت.

در مورد ابرپارامترهای خاص مورد استفاده در آموزش DPO، نقش‌ها و نحوه عملکرد آن‌ها را خواهید آموخت.

نحوه بارگذاری مدل آموزش‌دیده خود در پلتفرم‌هایی مانند Hugging Face و مدیریت موثر ابرپارامترها پس از آموزش را خواهید آموخت.

نحوه عملکرد بهینه‌سازی سیاست نسبی گروهی (GRPO)، یک روش یادگیری تقویتی، از جمله درک عمیق یادگیری آن را به تفصیل خواهید آموخت.

نحوه آماده‌سازی داده‌ها به طور خاص برای بهینه‌سازی سیاست نسبی گروهی (GRPO) را خواهید آموخت.

نحوه ایجاد توابع پاداش - حیاتی‌ترین جنبه بهینه‌سازی سیاست نسبی گروهی (GRPO) - را از طریق مثال‌های مختلف عملی توابع پاداش خواهید آموخت.

داده‌ها باید با چه فرمتی به توابع پاداش GRPO ارائه شوند و چگونه می‌توانیم این داده‌ها را در داخل توابع پردازش کنیم؟ این جزئیات را به طور کامل خواهید آموخت.

نحوه تعریف پاداش‌ها در توابع و ایجاد الگوهای پاداش واضح برای GRPO را خواهید آموخت.

جزئیات متعددی را به طور عملی خواهید آموخت، مانند استخراج بخش‌های ارزشمند پاداش از پاسخ‌های خام و تعریف پاداش‌ها بر اساس این بخش‌های استخراج‌شده.

نحوه تبدیل یک مدل آموزشی به مدلی که قادر به تولید استدلال "زنجیره تفکر" از طریق GRPO (بهینه‌سازی سیاست نسبی گروهی) است را خواهید آموخت.

پیش‌نیازها:

  • دانش پایه برنامه‌نویسی پایتون.
  • آشنایی در سطح مقدماتی با مفاهیم هوش مصنوعی و یادگیری ماشین.
  • ایده‌آل، تجربه قبلی با Jupyter Notebook یا Google Colab.

در این دوره، وارد دنیای مدل‌های زبانی بزرگ (LLM) می‌شوید و روش‌های بهینه‌سازی سرتاسری بنیادی و پیشرفته را یاد می‌گیرید. با رویکرد SFT (Fine-Tuning نظارت‌شده) شروع می‌کنید، جایی که کشف خواهید کرد که چگونه به درستی داده‌های خود را آماده کنید و مجموعه‌داده‌های سفارشی با استفاده از توکنایزرها و داده‌سازها از طریق مثال‌های عملی ایجاد کنید. در طول فرآیند SFT، تکنیک‌های کلیدی برای سبک‌تر و کارآمدتر کردن مدل‌های بزرگ با LoRA (انطباق رتبه پایین) و کوانتیزاسیون را یاد خواهید گرفت و گام به گام نحوه ادغام آن‌ها در پروژه‌های خود را بررسی خواهید کرد.

پس از تحکیم مبانی SFT، به DPO (بهینه‌سازی مستقیم ترجیحات) خواهیم پرداخت. DPO به شما امکان می‌دهد با انعکاس مستقیم بازخورد کاربر در مدل، نتایج متمرکز بر کاربر را به دست آورید. خواهید آموخت که چگونه داده‌های خود را برای این روش فرمت کنید، چگونه یک مکانیسم پاداش طراحی کنید و چگونه مدل‌های آموزش‌دیده را در پلتفرم‌های محبوب مانند Hugging Face به اشتراک بگذارید. علاوه بر این، درک عمیق‌تری از نحوه عملکرد داده‌سازها در فرآیندهای DPO به دست خواهید آورد و تکنیک‌های عملی برای آماده‌سازی و تبدیل مجموعه‌داده‌ها در سناریوهای مختلف را خواهید آموخت.

مهم‌ترین مرحله دوره، GRPO (بهینه‌سازی سیاست نسبی گروهی) است که به دلیل تولید نتایج قوی، محبوبیت زیادی کسب کرده است. با GRPO، روش‌هایی را برای بهینه‌سازی رفتار مدل نه تنها در سطح فردی، بلکه در جوامع یا در بین گروه‌های کاربری مختلف یاد خواهید گرفت. این امر برای مدل‌های زبانی بزرگ برای ارائه خدمات به مخاطبان یا اهداف متنوع، منظم‌تر و مؤثرتر است. در این دوره، اصول اساسی GRPO را یاد خواهید گرفت و سپس دانش خود را با اعمال این تکنیک با مجموعه‌داده‌های دنیای واقعی تثبیت خواهید کرد.

در طول آموزش، موضوعات کلیدی - LoRA، کوانتیزاسیون، SFT، DPO و به ویژه GRPO - را با هم پوشش خواهیم داد و هر موضوع را با برنامه‌های کاربردی پروژه محور پشتیبانی می‌کنیم. در پایان این دوره، به طور کامل مجهز خواهید بود تا هر مرحله را با اطمینان مدیریت کنید، از آماده‌سازی داده‌های سرتاسری تا بهینه‌سازی سیاست مبتنی بر تنظیم دقیق و گروهی. توسعه راه‌حل‌های مدرن و رقابتی LLM که بر عملکرد و رضایت کاربر در پروژه‌های خودتان متمرکز هستند، بسیار آسان‌تر خواهد شد.


سرفصل ها و درس ها

مقدمه Introduction

  • مقدمه Introduction

  • معرفی محتوای دوره Course Content Introduction

  • نوت‌بوک‌های Jupyter Jupyter Notebooks

کوانتیزاسیون، LoRA، SFT، Data Collator، آماده‌سازی داده‌ها… Quantization, LoRA, SFT, Data Collator, Data Preparation…

  • کوانتیزاسیون چیست؟ چگونه بر اندازه و پارامترهای مدل تاثیر می‌گذارد؟ What is Quantization? How does it affect model size and parameters?

  • ایجاد حساب Hugging Face و دریافت توکن Create a Hugging Face Account and Get a Token

  • ایجاد نوت‌بوک Colab و آشنایی با کتابخانه‌ها Create a Colab Notebook and Get Familiar with the Libraries

  • دانلود مدل با کوانتیزاسیون Download the Model with Quantization

  • تفاوت‌های بین مدل‌های Base و Instruct Differences Between Base and Instruct Models

  • دانلود و بررسی مجموعه داده Download and Examine the Dataset

  • آماده‌سازی مجموعه داده، قالب چت و ادغام توکن‌های سفارشی Preparing Dataset, Chat Template, and Integrating Custom Tokens

  • ادامه آماده‌سازی مجموعه داده و توکنیزاسیون Continuing Dataset Preparation and Tokenization

  • Data Collator چیست؟ چگونه کار می‌کند؟ مثال عملی What is a Data Collator? How Does It Work? Practical Example

  • LoRA چیست؟ چرا از آن استفاده می‌کنیم؟ What is LoRA? Why Use It?

  • ادغام ماتریس‌های LoRA در مدل Integrating LoRA Matrices into the Model

  • تنظیم آرگومان‌های آموزش (هایپرپارامترهای آموزش) Setting Training Arguments (Training Hyperparameters)

  • تنظیم Trainer، شروع آموزش و ارزیابی نتایج Setting Trainer, Starting Training, and Evaluating Results

  • ادغام ماتریس‌های LoRA آموزش‌دیده با مدل Merging Trained LoRA Matrices with the Model

  • بارگذاری مدل در Hugging Face و استفاده از آن Uploading Model on Hugging Face and Using it

  • هایپرپارامترهای موثر بر خروجی‌ها Hyperparameters Affecting the Outputs

افزودن توکن‌های جدید و ایجاد الگو برای توکنایزر Adding New Tokens and Creating Templates for the Tokenizer

  • دانلود مدل و توکنایزر Download the Model and Tokenizer

  • افزودن توکن‌های سفارشی جدید به توکنایزر Adding New Custom Tokens to the Tokenizer

  • ایجاد الگو با توکن‌های سفارشی جدید و ادغام آن‌ها در مجموعه داده Creating Templates with New Custom Tokens and Integrating Them into the Dataset

DPO (بهینه‌سازی ترجیح مستقیم) DPO (Direct Preference Optimization)

  • DPO چیست؟ چه فرمت داده‌ای را انتظار دارد؟ What is DPO? What Data Format Does It Expect?

  • دانلود مدل و درک نحوه Padding کردن توسط Data Collator DPO Downloading Model & Understanding How the DPO Data Collator do Padding

  • آماده‌سازی مجموعه داده برای DPO Preparing the Dataset for DPO

  • افزودن ماتریس‌های LoRA به مدل Adding LoRA Matrices to the Model

  • تنظیم آرگومان‌های آموزش (با DPOConfig) Setting Training Arguments (with DPOConfig)

  • آموزش مدل و ادغام ماتریس‌های LoRA Training the Model and Merging the LoRA Matrices

GRPO (بهینه‌سازی سیاست نسبی گروهی) یادگیری تقویتی GRPO (Group Relative Policy Optimization) Reinforcement Learning

  • مدل "استدلال" چیست؟ چگونه کار می‌کند؟ What is a “Reasoning” Model? How Does It Work?

  • GRPO چیست؟ چگونه اعمال می‌شود؟ What is GRPO? How Is It Applied?

  • Unsloth و VLLM چیستند؟ + دانلود مدل What are Unsloth and VLLM? + Download the Model

  • بررسی مجموعه داده و مراحل اولیه آماده‌سازی Examining the Dataset and Initial Preparation Steps

  • استخراج بخش‌های خاصی از داده: عبارات با قاعده و عملیات گروهی Extracting Specific Parts of Data: Regex and Group Operations

  • داده‌ها با چه قالبی به توابع پاداش ارسال می‌شوند؟ In Which Format is Data Sent to Reward Functions?

  • تابع پاداش اول 1st Reward Function

  • تابع پاداش دوم 2nd Reward Function

  • تابع پاداش سوم 3rd Reward Function

  • تابع پاداش چهارم 4th Reward Function

  • هایپرپارامترهای آموزش (با GRPO Config) Training Hyperparameters (with GRPO Config)

  • شی Trainer و فرآیند آموزش Trainer Object and Training Process

  • جدول نتایج پاداش‌ها و نمونه خروجی‌ها Results Table Rewards and Sample Outputs

  • BONUS_New_GRPO_Notebook BONUS_New_GRPO_Notebook

BONUS_New_GRPO_Notebook BONUS_New_GRPO_Notebook

  • BONUS_New_GRPO_Notebook BONUS_New_GRPO_Notebook

نمایش نظرات

آموزش بهینه‌سازی مدل زبانی بزرگ (LLM) با یادگیری تقویتی: روش DeepSeek، الگوریتم GRPO
جزییات دوره
3.5 hours
43
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
180
4.7 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Çağatay Demirbaş Çağatay Demirbaş

دانشجوی کارشناسی ارشد هوش مصنوعی