دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش تسلط بر ارزیابی LLM: ساخت سیستم‌های هوش مصنوعی قابل اعتماد و مقیاس‌پذیر - آخرین آپدیت

دانلود Mastering LLM Evaluation: Build Reliable Scalable AI Systems

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: هنر و علم ارزیابی مدل‌های زبانی بزرگ (LLM) را با آزمایشگاه‌های عملی، تحلیل خطا و استراتژی‌های بهینه‌سازی هزینه بیاموزید. در این دوره موارد زیر را فرا خواهید گرفت: - درک کامل چرخه حیات ارزیابی LLM — از نمونه‌سازی اولیه تا نظارت بر محیط تولید - شناسایی و دسته‌بندی حالت‌های رایج شکست در خروجی‌های مدل‌های زبانی بزرگ - طراحی و پیاده‌سازی گردش‌کارهای ساختاریافته برای تحلیل خطا و برچسب‌گذاری (Annotation) - ساخت خط لوله‌های ارزیابی خودکار با استفاده از معیارهای مبتنی بر کد و داور LLM (LLM-judge) - ارزیابی سیستم‌های معماری خاص مانند RAG، عامل‌های چند مرحله‌ای و مدل‌های چندوجهی (Multi-modal) - راه‌اندازی داشبوردهای نظارت مستمر با داده‌های Trace، هشدارها و گیت‌های CI/CD - بهینه‌سازی مصرف مدل و هزینه‌ها با مسیریابی هوشمند، منطق Fallback و حافظه پنهان (Caching) - استقرار سیستم‌های بازبینی انسانی (Human-in-the-loop) برای بازخورد مستمر و کنترل کیفیت پیش نیازها: - هیچ تجربه قبلی در زمینه ارزیابی مورد نیاز نیست — این دوره از مفاهیم پایه شروع می‌شود - درک ابتدایی از نحوه عملکرد مدل‌های زبانی بزرگ مانند GPT-4 یا Claude - آشنایی با مهندسی پرامپت یا استفاده از APIهای هوش مصنوعی مفید است اما الزامی نیست - توانایی خواندن JSON یا کار با اسکریپت‌های ساده (پایتون یا Notebooks) یک امتیاز محسوب می‌شود - دسترسی به کامپیوتری با اتصال اینترنت (برای بخش‌های عملی و داشبوردها) - اشتیاق به ساخت سیستم‌های هوش مصنوعی ایمن، قابل اندازه‌گیری و مقرون‌به‌صرفه!

قدرت ارزیابی LLM را آزاد کنید و اپلیکیشن‌های هوش مصنوعی بسازید که نه‌تنها هوشمند، بلکه قابل اعتماد، کارآمد و مقرون‌به‌صرفه باشند. این دوره جامع به شما می‌آموزد که چگونه خروجی‌های مدل‌های زبانی بزرگ را در کل چرخه توسعه — از پروتوتایپ تا تولید — ارزیابی کنید. چه مهندس هوش مصنوعی باشید، چه مدیر محصول یا متخصص MLOps، این برنامه ابزارهایی را در اختیار شما قرار می‌دهد تا تأثیری واقعی با سیستم‌های مبتنی بر LLM ایجاد کنید.

اپلیکیشن‌های مدرن LLM قدرتمند هستند، اما در عین حال مستعد توهم (Hallucinations)، ناپایداری و رفتارهای غیرمنتظره هستند. به همین دلیل است که ارزیابی یک مورد «تکمیلی» نیست، بلکه ستون فقرات هر محصول هوش مصنوعی مقیاس‌پذیر است. در این دوره عملی، یاد می‌گیرید که چگونه چارچوب‌های ارزیابی مستحکم برای LLMها را طراحی، پیاده‌سازی و عملیاتی کنید. ما شما را با حالت‌های رایج شکست، استراتژی‌های برچسب‌گذاری، تولید داده‌های مصنوعی و نحوه ایجاد خط لوله‌های ارزیابی خودکار آشنا می‌کنیم. همچنین در تحلیل خطا، ابزارهای مشاهده‌پذیری (Observability) و بهینه‌سازی هزینه از طریق مسیریابی هوشمند و نظارت تسلط خواهید یافت.

آنچه این دوره را متمایز می‌کند، تمرکز آن بر آزمایشگاه‌های عملی، ابزارهای دنیای واقعی و قالب‌های آماده برای سازمان‌های بزرگ (Enterprise-ready) است. شما فقط تئوری ارزیابی را نمی‌آموزید، بلکه مجموعه‌های تست برای سیستم‌های RAG، عامل‌های چندوجهی و خط لوله‌های چندمرحله‌ای LLM می‌سازید. بررسی خواهید کرد که چگونه مدل‌ها را در محیط تولید با استفاده از گیت‌های CI/CD، تست A/B و نرده‌های ایمنی (Guardrails) نظارت کنید. همچنین ارزیابی انسانی (HITL) و حلقه‌های بازخورد مستمری را پیاده‌سازی می‌کنید که باعث می‌شود سیستم شما در طول زمان یاد بگیرد و بهبود یابد.

شما مهارت‌هایی در زمینه تاکسونومی برچسب‌گذاری، توافق بین برچسب‌زن‌ها (Inter-annotator agreement) و نحوه ساخت گردش‌کارهای ارزیابی collaborative بین تیم‌ها کسب خواهید کرد. ما حتی به شما نشان می‌دهیم که چگونه معیارهای ارزیابی را به KPIهای تجاری مانند CSAT، نرخ تبدیل یا زمان حل مشکل متصل کنید تا بتوانید نه‌تنها عملکرد مدل، بلکه بازگشت سرمایه (ROI) واقعی را اندازه‌گیری کنید.

با تبدیل شدن هوش مصنوعی به یک نیاز حیاتی در هر صنعت، توانایی اجرای ارزیابی‌های مقیاس‌پذیر، خودکار و مقرون‌به‌صرفه LLM، مزیت رقابتی شما خواهد بود. در پایان این دوره، شما قادر خواهید بود گردش‌کارهای ارزیابی با کیفیت بالا طراحی کنید، خطاهای LLM را عیب‌یابی نمایید و سیستم‌های نظارتی در سطح تولید مستقر کنید که با تحمل ریسک، آستانه‌های کیفیت و محدودیت‌های هزینه شرکت شما همسو باشد.

این دوره برای افراد زیر ایده‌آل است:

مهندسان AI که در حال ساخت یا نگهداری سیستم‌های مبتنی بر LLM هستند
مدیران محصول مسئول کیفیت و ایمنی هوش مصنوعی
تیم‌های MLOps و پلتفرم که به دنبال مقیاس‌پذیری فرآیندهای ارزیابی هستند
دانشمندان داده متمرکز بر قابلیت اطمینان AI و تحلیل خطا

همین حالا بپیوندید و یاد بگیرید چگونه اپلیکیشن‌های LLM قابل اعتماد، قابل اندازه‌گیری و مقیاس‌پذیر بسازید — از درون به بیرون.

سرفصل ها و درس ها

مبانی ارزیابی LLM Fundamentals of LLM Evaluation

گواهینامه پایان دوره Certificate of Completion
چرا ارزیابی اهمیت دارد Why Evaluation Matters
چالش‌های ارزیابی LLMها Challenges in Evaluating LLMs
چرخه حیات ارزیابی The Evaluation Lifecycle
مبانی مشاهده‌پذیری و ابزارگذاری Observability & Instrumentation Basics
مقدمه‌ای بر تحلیل خطا Introduction to Error Analysis
آزمایشگاه‌های عملی بخش اول Practical Labs for Section 1

تحلیل سیستماتیک خطا Systematic Error Analysis

شروع سریع با داده‌های مصنوعی Bootstrapping with Synthetic Data
برچسب‌گذاری و دسته‌بندی Annotation & Categorization
از خطا تا اقدام From Error to Action
اشتباهات رایج که باید از آن‌ها اجتناب کرد Pitfalls to Avoid
آزمایشگاه: ساخت سیستم ردیابی خطا Lab: Build an Error Tracking System
آزمایشگاه‌های عملی بخش دوم Practical Labs for Section 2

پیاده‌سازی ارزیابی‌های موثر Implementing Effective Evaluations

طراحی و انواع معیارها Metric Design & Types
ارزیابی در سطح تک‌نمونه در مقابل سطح سیستم Individual vs System-Level Evaluation
ساختار و مدیریت مجموعه داده‌ها Dataset Structure and Management
آزمایشگاه: ساخت خط لوله ارزیابی Lab: Build an Evaluation Pipeline
آزمایشگاه‌های عملی بخش سوم Practical Labs for Section 3

پراکس‌های ارزیابی مشارکتی Collaborative Evaluation Practices

گردش‌کارهای ارزیابی تیمی Team-Based Eval Workflows
اندازه‌گیری توافق بین برچسب‌زن‌ها Measuring Annotator Agreement
ایجاد اجماع Building Consensus
آزمایشگاه: کارگاه همسوسازی Lab: Alignment Workshop
آزمایشگاه‌های عملی بخش چهارم Practical Labs for Section 4

استراتژی‌های مختص به معماری Architecture-Specific Strategies

ارزیابی سیستم‌های RAG RAG Systems Evaluation
خط لوله‌های چند مرحله‌ای Multi-Step Pipelines
ارزیابی استفاده از ابزارها و تعاملات چند مرحله‌ای Tool Usage & Multi-Turn Evaluation
ارزیابی مدل‌های چندوجهی Multi-Modal Evaluation
آزمایشگاه: مجموعه‌های تست بر اساس معماری Lab: Test Suites by Architecture
آزمایشگاه‌های عملی بخش پنجم Practical Labs for Section 5

نظارت و ارزیابی مستمر Monitoring & Continuous Evaluation

ردیابی و مشاهده‌پذیری Tracing & Observability
گیت‌های ارزیابی CI/CD CI/CD Evaluation Gates
ارزیابی A/B و آزمایش‌ها A/B and Experiment Evaluation
طراحی ایمنی و نرده‌های حفاظتی Safety & Guardrail Design
آزمایشگاه: داشبورد نظارتی Lab: Monitoring Dashboard
آزمایشگاه‌های عملی، قالب‌ها و دستورالعمل‌ها Practical Labs, Templates, and Playbooks

ارزیابی با حضور انسان در چرخه Human-in-the-Loop Evaluation

نمونه‌برداری استراتژیک Strategic Sampling
بهینه‌سازی رابط کاربری بازبین Reviewer Interface Optimization
آزمایشگاه: سیستم بازخورد مستمر Lab: Continuous Feedback System
آزمایشگاه‌ها، قالب‌ها و دستورالعمل‌ها Labs, Templates & Playbooks

بهینه‌سازی هزینه در گردش‌کارهای ارزیابی Cost Optimization in Eval Workflows

ارزش در مقابل هزینه Value vs Spend
مسیریابی مدل (Model Routing) Model Routing
آزمایشگاه: پروژه بهینه‌سازی هزینه Lab: Cost Optimization Project
آزمایشگاه‌های بهینه‌سازی هزینه، قالب‌ها و دستورالعمل‌ها Cost Optimization Labs, Templates, and Playbooks

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش تسلط بر ارزیابی LLM: ساخت سیستم‌های هوش مصنوعی قابل اعتماد و مقیاس‌پذیر

جزییات دوره

زمان دوره: 3 hours

تعداد ویدیو ها: 43

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 11,351

امتیاز مرجع: 4 از 5

فایل تمرین: ندارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: School of AI

لینک کوتاه این دوره

https://donyad.com/d/f9627f

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

آموزش تسلط بر ارزیابی LLM: ساخت سیستم‌های هوش مصنوعی قابل اعتماد و مقیاس‌پذیر - آخرین آپدیت

دانلود Mastering LLM Evaluation: Build Reliable Scalable AI Systems

مبانی ارزیابی LLM Fundamentals of LLM Evaluation

گواهینامه پایان دوره Certificate of Completion

چرا ارزیابی اهمیت دارد Why Evaluation Matters

چالش‌های ارزیابی LLMها Challenges in Evaluating LLMs

چرخه حیات ارزیابی The Evaluation Lifecycle

مبانی مشاهده‌پذیری و ابزارگذاری Observability & Instrumentation Basics

مقدمه‌ای بر تحلیل خطا Introduction to Error Analysis

آزمایشگاه‌های عملی بخش اول Practical Labs for Section 1

تحلیل سیستماتیک خطا Systematic Error Analysis

شروع سریع با داده‌های مصنوعی Bootstrapping with Synthetic Data

برچسب‌گذاری و دسته‌بندی Annotation & Categorization

از خطا تا اقدام From Error to Action

اشتباهات رایج که باید از آن‌ها اجتناب کرد Pitfalls to Avoid

آزمایشگاه: ساخت سیستم ردیابی خطا Lab: Build an Error Tracking System

آزمایشگاه‌های عملی بخش دوم Practical Labs for Section 2

پیاده‌سازی ارزیابی‌های موثر Implementing Effective Evaluations

طراحی و انواع معیارها Metric Design & Types

ارزیابی در سطح تک‌نمونه در مقابل سطح سیستم Individual vs System-Level Evaluation

ساختار و مدیریت مجموعه داده‌ها Dataset Structure and Management

آزمایشگاه: ساخت خط لوله ارزیابی Lab: Build an Evaluation Pipeline

آزمایشگاه‌های عملی بخش سوم Practical Labs for Section 3

پراکس‌های ارزیابی مشارکتی Collaborative Evaluation Practices

گردش‌کارهای ارزیابی تیمی Team-Based Eval Workflows

اندازه‌گیری توافق بین برچسب‌زن‌ها Measuring Annotator Agreement

ایجاد اجماع Building Consensus

آزمایشگاه: کارگاه همسوسازی Lab: Alignment Workshop

آزمایشگاه‌های عملی بخش چهارم Practical Labs for Section 4

استراتژی‌های مختص به معماری Architecture-Specific Strategies

ارزیابی سیستم‌های RAG RAG Systems Evaluation

خط لوله‌های چند مرحله‌ای Multi-Step Pipelines

ارزیابی استفاده از ابزارها و تعاملات چند مرحله‌ای Tool Usage & Multi-Turn Evaluation

ارزیابی مدل‌های چندوجهی Multi-Modal Evaluation

آزمایشگاه: مجموعه‌های تست بر اساس معماری Lab: Test Suites by Architecture

آزمایشگاه‌های عملی بخش پنجم Practical Labs for Section 5

نظارت و ارزیابی مستمر Monitoring & Continuous Evaluation

ردیابی و مشاهده‌پذیری Tracing & Observability

گیت‌های ارزیابی CI/CD CI/CD Evaluation Gates

ارزیابی A/B و آزمایش‌ها A/B and Experiment Evaluation

طراحی ایمنی و نرده‌های حفاظتی Safety & Guardrail Design

آزمایشگاه: داشبورد نظارتی Lab: Monitoring Dashboard

آزمایشگاه‌های عملی، قالب‌ها و دستورالعمل‌ها Practical Labs, Templates, and Playbooks

ارزیابی با حضور انسان در چرخه Human-in-the-Loop Evaluation

نمونه‌برداری استراتژیک Strategic Sampling

بهینه‌سازی رابط کاربری بازبین Reviewer Interface Optimization

آزمایشگاه: سیستم بازخورد مستمر Lab: Continuous Feedback System

آزمایشگاه‌ها، قالب‌ها و دستورالعمل‌ها Labs, Templates & Playbooks

بهینه‌سازی هزینه در گردش‌کارهای ارزیابی Cost Optimization in Eval Workflows

ارزش در مقابل هزینه Value vs Spend

مسیریابی مدل (Model Routing) Model Routing

آزمایشگاه: پروژه بهینه‌سازی هزینه Lab: Cost Optimization Project

آزمایشگاه‌های بهینه‌سازی هزینه، قالب‌ها و دستورالعمل‌ها Cost Optimization Labs, Templates, and Playbooks

نمایش نظرات

https://donyad.com/d/f9627f