لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش ارزیابی کاربردهای مدلهای زبانی بزرگ (LLM)
- آخرین آپدیت
دانلود Evaluation for LLM Applications
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
آموزش کاربردی ارزیابی LLM با تحلیل خطا، سیستمهای RAG، مانیتورینگ و بهینهسازی هزینهها.
درک روشهای اصلی ارزیابی برای مدلهای زبانی بزرگ، شامل رویکردهای انسانی، خودکار و ترکیبی.
بهکارگیری چارچوبهای سیستماتیک تحلیل خطا برای شناسایی، دستهبندی و رفع نقصهای مدل.
طراحی و نظارت بر سیستمهای تولید متنی تقویتشده با بازیابی (RAG) با استفاده از معیارهای ارزیابی قابل اعتماد.
پیادهسازی خطلولههای ارزیابی آماده تولید با مانیتورینگ مداوم، حلقههای بازخورد و استراتژیهای بهینهسازی هزینه.
پیشنیازها: پیشنیاز سختگیرانهای وجود ندارد — دانش پایه در زمینه هوش مصنوعی یا توسعه نرمافزار مفید است اما الزامی نیست.
مدلهای زبانی بزرگ (LLMs) در حال تغییر روش ساخت اپلیکیشنها هستند — از چتباتها و ابزارهای پشتیبانی مشتری گرفته تا دستیارهای پیشرفته دانش. اما استقرار این سیستمها در دنیای واقعی با یک چالش حیاتی همراه است: چگونه آنها را بهطور موثر ارزیابی کنیم؟
این دوره، «ارزیابی کاربردهای LLM»، یک چارچوب کامل برای طراحی، نظارت و بهبود سیستمهای مبتنی بر LLM با اطمینان بالا به شما ارائه میدهد. شما هم مبانی نظریو هم تکنیکهای عملیمورد نیاز برای اطمینان از دقت، امنیت، کارایی و مقرونبهصرفه بودن مدلهایتان را خواهید آموخت.
ما با مبانی ارزیابی LLM شروع میکنیم و روشهای درونی (intrinsic) در مقابل بیرونی (extrinsic) و آنچه یک مدل را «خوب» میکند بررسی میکنیم. سپس، در تحلیل سیستماتیک خطاعمیق میشویم و یاد میگیرید چگونه ورودیها، خروجیها و متادادهها را ثبت کرده و خطلولههای مشاهدهپذیری (observability) را پیاده کنید. از آنجا به سراغ تکنیکهای ارزیابی، شامل بررسی انسانی، معیارهای خودکار، رویکردهای «LLM به عنوان داور» و امتیازدهی جفتی میرویم.
تمرکز ویژهای بر سیستمهای تولید متنی تقویتشده با بازیابی (RAG)خواهد بود، جایی که یاد میگیرید کیفیت بازیابی، صداقت (faithfulness) و عملکرد کلی سیستم را چگونه اندازهگیری کنید. در نهایت، طراحی مانیتورینگ آماده تولید، ساخت حلقههای بازخورد و بهینهسازی هزینهها از طریق استراتژیهای هوشمندانه انتخاب مدل و توکن را خواهید آموخت.
چه مهندس DevOps، توسعهدهنده نرمافزار، دانشمند داده یا تحلیلگر دادهباشید، این دوره شما را به دانش کاربردی برای ارزیابی اپلیکیشنهای LLM در محیطهای واقعی مجهز میکند. در پایان، شما آماده خواهید بود تا خطلولههای ارزیابیای طراحی کنید که کیفیت را افزایش، ریسکها را کاهش و ارزش را به حداکثر برساند.
سرفصل ها و درس ها
مقدمه
Introduction
مقدمه
Introduction
دانلود منابع دوره
Download Course Materials
بخش ۱: مبانی ارزیابی LLM
Section 1: Foundations of LLM Evaluation
انواع ارزیابیها – درونی در مقابل بیرونی
Types of evaluations – intrinsic vs extrinsic
چه چیزی یک LLM را «خوب» میکند؟ (دقت، مفید بودن، ایمنی، تاخیر)
What makes an LLM "good"? (accuracy, helpfulness, safety, latency)
چالشهای ارزیابی خروجیهای مولد
Challenges in evaluating generative outputs
کوییز – بخش ۱: مبانی ارزیابی LLM
Quiz – Section 1: Foundations of LLM Evaluation
بخش ۲: ابزارگذاری و مشاهدهپذیری
Section 2: Instrumentation & Observability
ثبت ورودیها، خروجیها و متادادههای LLM
Logging LLM inputs, outputs, and metadata
راهاندازی خطلولههای مشاهدهپذیری (OpenTelemetry, Prometheus و غیره)
Setting up observability pipelines (OpenTelemetry, Prometheus, etc.)
معیارهای ردیابی (تاخیر، مصرف توکن، رضایت کاربر)
Metrics to track (latency, token usage, user satisfaction)
کوییز – بخش ۲: ابزارگذاری و مشاهدهپذیری
Quiz – Section 2: Instrumentation & Observability
بخش ۳: تحلیل سیستماتیک خطا
Section 3: Systematic Error Analysis
نوآوری دیجیتال دارای مجوز مستقل مستقل و مجرب برای فن آوری های وب و تلفن همراه (معماری ، توسعه و ابر) است. متن های مختلف پیشنهادات تشکیلات متنوع و متنوع ، تکنیک تجارب ، خدمات ویژه در زمینه استفاده از قوانین و مقررات وب.
Pour ma part، je suis docteur en système d'information et professeur d'université spécialisé dans l'usages de l'ellief Intelligence sur les Réseaux Sociaux. Depuis 2008 ، j'accompagne les entreprises dans l'amélioration de leurs performance en communication digitalale. Au terme de ces différentes missions de conseil، le feedback des مشتریان est très homogène. كارشناس Ils:
1- L’éclairage apporté par un specialist indépendant، qui permet de savoir où se situer et quelles décitions prendre
2- Des recommandations aussi bien adaptées aux operationnels qu’aux جهت جنرال
3- Des plans d’action très concrets، précis et détaillés
نمایش نظرات