آموزش بهینه‌سازی مدل زبانی بزرگ (LLM) با یادگیری تقویتی: روش DeepSeek، الگوریتم GRPO

دانلود LLM Reinforcement Learning Fine-Tuning DeepSeek Method GRPO

بهینه‌سازی مدل‌های زبانی بزرگ (LLM) و یادگیری تقویتی با استفاده از SFT، LoRA، DPO، GRPO و داده‌های سفارشی در Hugging Face Udemy (یودمی)