آموزش ارزیابی کاربردهای مدل‌های زبانی بزرگ (LLM) - آخرین آپدیت

دانلود Evaluation for LLM Applications

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: آموزش کاربردی ارزیابی LLM با تحلیل خطا، سیستم‌های RAG، مانیتورینگ و بهینه‌سازی هزینه‌ها. درک روش‌های اصلی ارزیابی برای مدل‌های زبانی بزرگ، شامل رویکردهای انسانی، خودکار و ترکیبی. به‌کارگیری چارچوب‌های سیستماتیک تحلیل خطا برای شناسایی، دسته‌بندی و رفع نقص‌های مدل. طراحی و نظارت بر سیستم‌های تولید متنی تقویت‌شده با بازیابی (RAG) با استفاده از معیارهای ارزیابی قابل اعتماد. پیاده‌سازی خط‌لوله‌های ارزیابی آماده تولید با مانیتورینگ مداوم، حلقه‌های بازخورد و استراتژی‌های بهینه‌سازی هزینه. پیش‌نیازها: پیش‌نیاز سخت‌گیرانه‌ای وجود ندارد — دانش پایه در زمینه هوش مصنوعی یا توسعه نرم‌افزار مفید است اما الزامی نیست.

مدل‌های زبانی بزرگ (LLMs) در حال تغییر روش ساخت اپلیکیشن‌ها هستند — از چت‌بات‌ها و ابزارهای پشتیبانی مشتری گرفته تا دستیارهای پیشرفته دانش. اما استقرار این سیستم‌ها در دنیای واقعی با یک چالش حیاتی همراه است: چگونه آن‌ها را به‌طور موثر ارزیابی کنیم؟

این دوره، «ارزیابی کاربردهای LLM»، یک چارچوب کامل برای طراحی، نظارت و بهبود سیستم‌های مبتنی بر LLM با اطمینان بالا به شما ارائه می‌دهد. شما هم مبانی نظریو هم تکنیک‌های عملیمورد نیاز برای اطمینان از دقت، امنیت، کارایی و مقرون‌به‌صرفه بودن مدل‌هایتان را خواهید آموخت.

ما با مبانی ارزیابی LLM شروع می‌کنیم و روش‌های درونی (intrinsic) در مقابل بیرونی (extrinsic) و آنچه یک مدل را «خوب» می‌کند بررسی می‌کنیم. سپس، در تحلیل سیستماتیک خطاعمیق می‌شویم و یاد می‌گیرید چگونه ورودی‌ها، خروجی‌ها و متاداده‌ها را ثبت کرده و خط‌لوله‌های مشاهده‌پذیری (observability) را پیاده کنید. از آنجا به سراغ تکنیک‌های ارزیابی، شامل بررسی انسانی، معیارهای خودکار، رویکردهای «LLM به عنوان داور» و امتیازدهی جفتی می‌رویم.

تمرکز ویژه‌ای بر سیستم‌های تولید متنی تقویت‌شده با بازیابی (RAG)خواهد بود، جایی که یاد می‌گیرید کیفیت بازیابی، صداقت (faithfulness) و عملکرد کلی سیستم را چگونه اندازه‌گیری کنید. در نهایت، طراحی مانیتورینگ آماده تولید، ساخت حلقه‌های بازخورد و بهینه‌سازی هزینه‌ها از طریق استراتژی‌های هوشمندانه انتخاب مدل و توکن را خواهید آموخت.

چه مهندس DevOps، توسعه‌دهنده نرم‌افزار، دانشمند داده یا تحلیلگر دادهباشید، این دوره شما را به دانش کاربردی برای ارزیابی اپلیکیشن‌های LLM در محیط‌های واقعی مجهز می‌کند. در پایان، شما آماده خواهید بود تا خط‌لوله‌های ارزیابی‌ای طراحی کنید که کیفیت را افزایش، ریسک‌ها را کاهش و ارزش را به حداکثر برساند.


سرفصل ها و درس ها

مقدمه Introduction

  • مقدمه Introduction

  • دانلود منابع دوره Download Course Materials

بخش ۱: مبانی ارزیابی LLM Section 1: Foundations of LLM Evaluation

  • انواع ارزیابی‌ها – درونی در مقابل بیرونی Types of evaluations – intrinsic vs extrinsic

  • چه چیزی یک LLM را «خوب» می‌کند؟ (دقت، مفید بودن، ایمنی، تاخیر) What makes an LLM "good"? (accuracy, helpfulness, safety, latency)

  • چالش‌های ارزیابی خروجی‌های مولد Challenges in evaluating generative outputs

  • کوییز – بخش ۱: مبانی ارزیابی LLM Quiz – Section 1: Foundations of LLM Evaluation

بخش ۲: ابزارگذاری و مشاهده‌پذیری Section 2: Instrumentation & Observability

  • ثبت ورودی‌ها، خروجی‌ها و متاداده‌های LLM Logging LLM inputs, outputs, and metadata

  • راه‌اندازی خط‌لوله‌های مشاهده‌پذیری (OpenTelemetry, Prometheus و غیره) Setting up observability pipelines (OpenTelemetry, Prometheus, etc.)

  • معیارهای ردیابی (تاخیر، مصرف توکن، رضایت کاربر) Metrics to track (latency, token usage, user satisfaction)

  • کوییز – بخش ۲: ابزارگذاری و مشاهده‌پذیری Quiz – Section 2: Instrumentation & Observability

بخش ۳: تحلیل سیستماتیک خطا Section 3: Systematic Error Analysis

  • دسته‌بندی شکست‌های LLM (توهم، سوگیری، سمیت) Categorizing LLM failures (hallucinations, bias, toxicity)

  • چارچوب‌های تحلیل ریشه خطا (Root Cause Analysis) Root cause analysis frameworks

  • حلقه‌های بازخورد و استراتژی‌های ثبت خطا Feedback loops and error logging strategies

  • کوییز – بخش ۳: تحلیل سیستماتیک خطا Quiz –  Section 3: Systematic Error Analysis

بخش ۴: تکنیک‌های ارزیابی و رویکردهای داور LLM Section 4: Evaluation Techniques & LLM-Judge Approaches

  • ارزیابی انسانی در مقابل ارزیابی خودکار Human evaluation vs automatic evaluation

  • استفاده از LLMها برای نمره‌دهی به سایر LLMها (تکنیک‌های داور LLM) Using LLMs to grade other LLMs (LLM-as-a-judge techniques)

  • مقایسه جفتی و روش‌های امتیازدهی Pairwise comparison and scoring methods

  • کوییز – بخش ۴: تکنیک‌های ارزیابی و رویکردهای داور LLM Quiz – Section 4: Evaluation Techniques & LLM-Judge Approaches

بخش ۵: ارزیابی سیستم‌های RAG Section 5: Evaluating RAG Systems

  • تفاوت تولید متنی تقویت‌شده با بازیابی (RAG) در چیست؟ What makes Retrieval-Augmented Generation different?

  • ارزیابی کیفیت بازیابی (فراخوانی، دقت، مرتبط بودن) Evaluating retrieval quality (recall, precision, relevance)

  • ارزیابی ترکیبی بازیابی + تولید Combined evaluation of retrieval + generation

  • کوییز – بخش ۵: ارزیابی سیستم‌های RAG Quiz – Section 5: Evaluating RAG Systems

بخش ۶: مانیتورینگ تولید و ارزیابی مداوم Section 6: Production Monitoring & Continuous Evaluation

  • طراحی ارزیابی در محیط‌های عملیاتی (Production) Designing evaluation in production environments

  • ادغام ارزیابی در خط‌لوله‌های CI/CD یا جریان کاری Integrating eval into CI/CD or workflow pipelines

  • سیستم‌های هشدار، آستانه‌ها و پاسخ به حوادث Alerting, thresholds, and incident response

  • کوییز – بخش ۶: مانیتورینگ تولید و ارزیابی مداوم Quiz – Section 6: Production Monitoring & Continuous Evaluation

بخش ۷: بررسی انسانی و بهینه‌سازی هزینه Section 7: Human Review & Cost Optimization

  • ایجاد سیستم‌های مقیاس‌پذیر بررسی انسانی در چرخه (Human-in-the-Loop) Creating scalable human-in-the-loop review systems

  • ایجاد تعادل بین کیفیت ارزیابی و محدودیت‌های بودجه Balancing eval quality vs budget constraints

  • استراتژی‌های انتخاب مدل و توکن برای کاهش هزینه‌ها Token and model selection strategies to reduce costs

  • کوییز – بخش ۷: بررسی انسانی و بهینه‌سازی هزینه Quiz – Section 7: Human Review & Cost Optimization

جمع‌بندی دوره – نکات کلیدی Course Conclusion – Key Takeaways

  • جمع‌بندی دوره – نکات کلیدی Course Conclusion – Key Takeaways

نمایش نظرات

آموزش ارزیابی کاربردهای مدل‌های زبانی بزرگ (LLM)
جزییات دوره
1 hour
24
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
2,137
4.4 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Digital Innovation | Les Experts™ Digital Innovation | Les Experts™

نوآوری دیجیتال دارای مجوز مستقل مستقل و مجرب برای فن آوری های وب و تلفن همراه (معماری ، توسعه و ابر) است. متن های مختلف پیشنهادات تشکیلات متنوع و متنوع ، تکنیک تجارب ، خدمات ویژه در زمینه استفاده از قوانین و مقررات وب. Pour ma part، je suis docteur en système d'information et professeur d'université spécialisé dans l'usages de l'ellief Intelligence sur les Réseaux Sociaux. Depuis 2008 ، j'accompagne les entreprises dans l'amélioration de leurs performance en communication digitalale. Au terme de ces différentes missions de conseil، le feedback des مشتریان est très homogène. كارشناس Ils: 1- L’éclairage apporté par un specialist indépendant، qui permet de savoir où se situer et quelles décitions prendre 2- Des recommandations aussi bien adaptées aux operationnels qu’aux جهت جنرال 3- Des plans d’action très concrets، précis et détaillés