دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش ارزیابی کاربردهای مدل‌های زبانی بزرگ (LLM) - آخرین آپدیت

دانلود Evaluation for LLM Applications

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: آموزش کاربردی ارزیابی LLM با تحلیل خطا، سیستم‌های RAG، مانیتورینگ و بهینه‌سازی هزینه‌ها. درک روش‌های اصلی ارزیابی برای مدل‌های زبانی بزرگ، شامل رویکردهای انسانی، خودکار و ترکیبی. به‌کارگیری چارچوب‌های سیستماتیک تحلیل خطا برای شناسایی، دسته‌بندی و رفع نقص‌های مدل. طراحی و نظارت بر سیستم‌های تولید متنی تقویت‌شده با بازیابی (RAG) با استفاده از معیارهای ارزیابی قابل اعتماد. پیاده‌سازی خط‌لوله‌های ارزیابی آماده تولید با مانیتورینگ مداوم، حلقه‌های بازخورد و استراتژی‌های بهینه‌سازی هزینه. پیش‌نیازها: پیش‌نیاز سخت‌گیرانه‌ای وجود ندارد — دانش پایه در زمینه هوش مصنوعی یا توسعه نرم‌افزار مفید است اما الزامی نیست.

مدل‌های زبانی بزرگ (LLMs) در حال تغییر روش ساخت اپلیکیشن‌ها هستند — از چت‌بات‌ها و ابزارهای پشتیبانی مشتری گرفته تا دستیارهای پیشرفته دانش. اما استقرار این سیستم‌ها در دنیای واقعی با یک چالش حیاتی همراه است: چگونه آن‌ها را به‌طور موثر ارزیابی کنیم؟

این دوره، «ارزیابی کاربردهای LLM»، یک چارچوب کامل برای طراحی، نظارت و بهبود سیستم‌های مبتنی بر LLM با اطمینان بالا به شما ارائه می‌دهد. شما هم مبانی نظریو هم تکنیک‌های عملیمورد نیاز برای اطمینان از دقت، امنیت، کارایی و مقرون‌به‌صرفه بودن مدل‌هایتان را خواهید آموخت.

ما با مبانی ارزیابی LLM شروع می‌کنیم و روش‌های درونی (intrinsic) در مقابل بیرونی (extrinsic) و آنچه یک مدل را «خوب» می‌کند بررسی می‌کنیم. سپس، در تحلیل سیستماتیک خطاعمیق می‌شویم و یاد می‌گیرید چگونه ورودی‌ها، خروجی‌ها و متاداده‌ها را ثبت کرده و خط‌لوله‌های مشاهده‌پذیری (observability) را پیاده کنید. از آنجا به سراغ تکنیک‌های ارزیابی، شامل بررسی انسانی، معیارهای خودکار، رویکردهای «LLM به عنوان داور» و امتیازدهی جفتی می‌رویم.

تمرکز ویژه‌ای بر سیستم‌های تولید متنی تقویت‌شده با بازیابی (RAG)خواهد بود، جایی که یاد می‌گیرید کیفیت بازیابی، صداقت (faithfulness) و عملکرد کلی سیستم را چگونه اندازه‌گیری کنید. در نهایت، طراحی مانیتورینگ آماده تولید، ساخت حلقه‌های بازخورد و بهینه‌سازی هزینه‌ها از طریق استراتژی‌های هوشمندانه انتخاب مدل و توکن را خواهید آموخت.

چه مهندس DevOps، توسعه‌دهنده نرم‌افزار، دانشمند داده یا تحلیلگر دادهباشید، این دوره شما را به دانش کاربردی برای ارزیابی اپلیکیشن‌های LLM در محیط‌های واقعی مجهز می‌کند. در پایان، شما آماده خواهید بود تا خط‌لوله‌های ارزیابی‌ای طراحی کنید که کیفیت را افزایش، ریسک‌ها را کاهش و ارزش را به حداکثر برساند.

سرفصل ها و درس ها

مقدمه Introduction

مقدمه Introduction
دانلود منابع دوره Download Course Materials

بخش ۱: مبانی ارزیابی LLM Section 1: Foundations of LLM Evaluation

انواع ارزیابی‌ها – درونی در مقابل بیرونی Types of evaluations – intrinsic vs extrinsic
چه چیزی یک LLM را «خوب» می‌کند؟ (دقت، مفید بودن، ایمنی، تاخیر) What makes an LLM "good"? (accuracy, helpfulness, safety, latency)
چالش‌های ارزیابی خروجی‌های مولد Challenges in evaluating generative outputs
کوییز – بخش ۱: مبانی ارزیابی LLM Quiz – Section 1: Foundations of LLM Evaluation

بخش ۲: ابزارگذاری و مشاهده‌پذیری Section 2: Instrumentation & Observability

ثبت ورودی‌ها، خروجی‌ها و متاداده‌های LLM Logging LLM inputs, outputs, and metadata
راه‌اندازی خط‌لوله‌های مشاهده‌پذیری (OpenTelemetry, Prometheus و غیره) Setting up observability pipelines (OpenTelemetry, Prometheus, etc.)
معیارهای ردیابی (تاخیر، مصرف توکن، رضایت کاربر) Metrics to track (latency, token usage, user satisfaction)
کوییز – بخش ۲: ابزارگذاری و مشاهده‌پذیری Quiz – Section 2: Instrumentation & Observability

بخش ۳: تحلیل سیستماتیک خطا Section 3: Systematic Error Analysis

دسته‌بندی شکست‌های LLM (توهم، سوگیری، سمیت) Categorizing LLM failures (hallucinations, bias, toxicity)
چارچوب‌های تحلیل ریشه خطا (Root Cause Analysis) Root cause analysis frameworks
حلقه‌های بازخورد و استراتژی‌های ثبت خطا Feedback loops and error logging strategies
کوییز – بخش ۳: تحلیل سیستماتیک خطا Quiz – Section 3: Systematic Error Analysis

بخش ۴: تکنیک‌های ارزیابی و رویکردهای داور LLM Section 4: Evaluation Techniques & LLM-Judge Approaches

ارزیابی انسانی در مقابل ارزیابی خودکار Human evaluation vs automatic evaluation
استفاده از LLMها برای نمره‌دهی به سایر LLMها (تکنیک‌های داور LLM) Using LLMs to grade other LLMs (LLM-as-a-judge techniques)
مقایسه جفتی و روش‌های امتیازدهی Pairwise comparison and scoring methods
کوییز – بخش ۴: تکنیک‌های ارزیابی و رویکردهای داور LLM Quiz – Section 4: Evaluation Techniques & LLM-Judge Approaches

بخش ۵: ارزیابی سیستم‌های RAG Section 5: Evaluating RAG Systems

تفاوت تولید متنی تقویت‌شده با بازیابی (RAG) در چیست؟ What makes Retrieval-Augmented Generation different?
ارزیابی کیفیت بازیابی (فراخوانی، دقت، مرتبط بودن) Evaluating retrieval quality (recall, precision, relevance)
ارزیابی ترکیبی بازیابی + تولید Combined evaluation of retrieval + generation
کوییز – بخش ۵: ارزیابی سیستم‌های RAG Quiz – Section 5: Evaluating RAG Systems

بخش ۶: مانیتورینگ تولید و ارزیابی مداوم Section 6: Production Monitoring & Continuous Evaluation

طراحی ارزیابی در محیط‌های عملیاتی (Production) Designing evaluation in production environments
ادغام ارزیابی در خط‌لوله‌های CI/CD یا جریان کاری Integrating eval into CI/CD or workflow pipelines
سیستم‌های هشدار، آستانه‌ها و پاسخ به حوادث Alerting, thresholds, and incident response
کوییز – بخش ۶: مانیتورینگ تولید و ارزیابی مداوم Quiz – Section 6: Production Monitoring & Continuous Evaluation

بخش ۷: بررسی انسانی و بهینه‌سازی هزینه Section 7: Human Review & Cost Optimization

ایجاد سیستم‌های مقیاس‌پذیر بررسی انسانی در چرخه (Human-in-the-Loop) Creating scalable human-in-the-loop review systems
ایجاد تعادل بین کیفیت ارزیابی و محدودیت‌های بودجه Balancing eval quality vs budget constraints
استراتژی‌های انتخاب مدل و توکن برای کاهش هزینه‌ها Token and model selection strategies to reduce costs
کوییز – بخش ۷: بررسی انسانی و بهینه‌سازی هزینه Quiz – Section 7: Human Review & Cost Optimization

جمع‌بندی دوره – نکات کلیدی Course Conclusion – Key Takeaways

جمع‌بندی دوره – نکات کلیدی Course Conclusion – Key Takeaways

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش ارزیابی کاربردهای مدل‌های زبانی بزرگ (LLM)

جزییات دوره

زمان دوره: 1 hour

تعداد ویدیو ها: 24

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 2,137

امتیاز مرجع: 4.4 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Digital Innovation | Les Experts™

لینک کوتاه این دوره

https://donyad.com/d/9ed810

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Digital Innovation | Les Experts™

نوآوری دیجیتال دارای مجوز مستقل مستقل و مجرب برای فن آوری های وب و تلفن همراه (معماری ، توسعه و ابر) است. متن های مختلف پیشنهادات تشکیلات متنوع و متنوع ، تکنیک تجارب ، خدمات ویژه در زمینه استفاده از قوانین و مقررات وب. Pour ma part، je suis docteur en système d'information et professeur d'université spécialisé dans l'usages de l'ellief Intelligence sur les Réseaux Sociaux. Depuis 2008 ، j'accompagne les entreprises dans l'amélioration de leurs performance en communication digitalale. Au terme de ces différentes missions de conseil، le feedback des مشتریان est très homogène. كارشناس Ils: 1- L’éclairage apporté par un specialist indépendant، qui permet de savoir où se situer et quelles décitions prendre 2- Des recommandations aussi bien adaptées aux operationnels qu’aux جهت جنرال 3- Des plans d’action très concrets، précis et détaillés

آموزش ارزیابی کاربردهای مدل‌های زبانی بزرگ (LLM) - آخرین آپدیت

دانلود Evaluation for LLM Applications

مقدمه Introduction

مقدمه Introduction

دانلود منابع دوره Download Course Materials

بخش ۱: مبانی ارزیابی LLM Section 1: Foundations of LLM Evaluation

انواع ارزیابی‌ها – درونی در مقابل بیرونی Types of evaluations – intrinsic vs extrinsic

چه چیزی یک LLM را «خوب» می‌کند؟ (دقت، مفید بودن، ایمنی، تاخیر) What makes an LLM "good"? (accuracy, helpfulness, safety, latency)

چالش‌های ارزیابی خروجی‌های مولد Challenges in evaluating generative outputs

کوییز – بخش ۱: مبانی ارزیابی LLM Quiz – Section 1: Foundations of LLM Evaluation

بخش ۲: ابزارگذاری و مشاهده‌پذیری Section 2: Instrumentation & Observability

ثبت ورودی‌ها، خروجی‌ها و متاداده‌های LLM Logging LLM inputs, outputs, and metadata

راه‌اندازی خط‌لوله‌های مشاهده‌پذیری (OpenTelemetry, Prometheus و غیره) Setting up observability pipelines (OpenTelemetry, Prometheus, etc.)

معیارهای ردیابی (تاخیر، مصرف توکن، رضایت کاربر) Metrics to track (latency, token usage, user satisfaction)

کوییز – بخش ۲: ابزارگذاری و مشاهده‌پذیری Quiz – Section 2: Instrumentation & Observability

بخش ۳: تحلیل سیستماتیک خطا Section 3: Systematic Error Analysis

دسته‌بندی شکست‌های LLM (توهم، سوگیری، سمیت) Categorizing LLM failures (hallucinations, bias, toxicity)

چارچوب‌های تحلیل ریشه خطا (Root Cause Analysis) Root cause analysis frameworks

حلقه‌های بازخورد و استراتژی‌های ثبت خطا Feedback loops and error logging strategies

کوییز – بخش ۳: تحلیل سیستماتیک خطا Quiz – Section 3: Systematic Error Analysis

بخش ۴: تکنیک‌های ارزیابی و رویکردهای داور LLM Section 4: Evaluation Techniques & LLM-Judge Approaches

ارزیابی انسانی در مقابل ارزیابی خودکار Human evaluation vs automatic evaluation

استفاده از LLMها برای نمره‌دهی به سایر LLMها (تکنیک‌های داور LLM) Using LLMs to grade other LLMs (LLM-as-a-judge techniques)

مقایسه جفتی و روش‌های امتیازدهی Pairwise comparison and scoring methods

کوییز – بخش ۴: تکنیک‌های ارزیابی و رویکردهای داور LLM Quiz – Section 4: Evaluation Techniques & LLM-Judge Approaches

بخش ۵: ارزیابی سیستم‌های RAG Section 5: Evaluating RAG Systems

تفاوت تولید متنی تقویت‌شده با بازیابی (RAG) در چیست؟ What makes Retrieval-Augmented Generation different?

ارزیابی کیفیت بازیابی (فراخوانی، دقت، مرتبط بودن) Evaluating retrieval quality (recall, precision, relevance)

ارزیابی ترکیبی بازیابی + تولید Combined evaluation of retrieval + generation

کوییز – بخش ۵: ارزیابی سیستم‌های RAG Quiz – Section 5: Evaluating RAG Systems

بخش ۶: مانیتورینگ تولید و ارزیابی مداوم Section 6: Production Monitoring & Continuous Evaluation

طراحی ارزیابی در محیط‌های عملیاتی (Production) Designing evaluation in production environments

ادغام ارزیابی در خط‌لوله‌های CI/CD یا جریان کاری Integrating eval into CI/CD or workflow pipelines

سیستم‌های هشدار، آستانه‌ها و پاسخ به حوادث Alerting, thresholds, and incident response

کوییز – بخش ۶: مانیتورینگ تولید و ارزیابی مداوم Quiz – Section 6: Production Monitoring & Continuous Evaluation

بخش ۷: بررسی انسانی و بهینه‌سازی هزینه Section 7: Human Review & Cost Optimization

ایجاد سیستم‌های مقیاس‌پذیر بررسی انسانی در چرخه (Human-in-the-Loop) Creating scalable human-in-the-loop review systems

ایجاد تعادل بین کیفیت ارزیابی و محدودیت‌های بودجه Balancing eval quality vs budget constraints

استراتژی‌های انتخاب مدل و توکن برای کاهش هزینه‌ها Token and model selection strategies to reduce costs

کوییز – بخش ۷: بررسی انسانی و بهینه‌سازی هزینه Quiz – Section 7: Human Review & Cost Optimization

جمع‌بندی دوره – نکات کلیدی Course Conclusion – Key Takeaways

جمع‌بندی دوره – نکات کلیدی Course Conclusion – Key Takeaways

نمایش نظرات

https://donyad.com/d/9ed810