آموزش معماری استنتاج و سروینگ مدل‌های هوش مصنوعی مولد (GenAI) - آخرین آپدیت

دانلود GenAI Inference and Serving Architecture

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: بهره‌برداری بهینه از مدل‌های زبانی بزرگ (LLMs) به دلیل نیازهای محاسباتی بالا، رفتارهای پیچیده نمونه‌برداری و بهینه‌سازی‌های سریع در فرآیند استنتاج، چالش‌برانگیز است. در این دوره آموزشی با عنوان «معماری استنتاج و سروینگ GenAI»، شما توانایی طراحی، تحلیل و بهینه‌سازی خط لوله‌های استنتاج (Inference Pipelines) با کارایی بالا برای مدل‌های ترنسفورمر را کسب خواهید کرد. در ابتدا، مبانی استنتاج مدل، از جمله توکن‌سازی (Tokenization)، پاس‌های پیشرو (Forward Passes)، استراتژی‌های نمونه‌برداری و معیارهای کلیدی عملکرد که بر تأخیر (Latency) و نرخ پردازش (Throughput) تأثیر می‌گذارند را بررسی می‌کنید. سپس، نحوه پیاده‌سازی دسته‌بندی (Batching)، مدیریت KV-cache و تکنیک‌های بهینه‌سازی بافتار طولانی (Long-context) را برای بهبود چشمگیر کارایی در مقیاس بالا خواهید آموخت. در نهایت، یاد می‌گیرید که چگونه بهره‌وری GPU را بهینه کنید، هزینه‌های زیرساختی را مدیریت نمایید و تکنیک‌های پیشرفته‌ای مانند رمزگشایی گمانه‌زن (Speculative Decoding)، کوانتیزاسیون (Quantization) و فشرده‌سازی مدل را به کار بگیرید. پس از اتمام این دوره، شما مهارت‌ها و دانش لازم برای بهینه‌سازی استنتاج LLM را خواهید داشت تا بتوانید سیستم‌های GenAI با هزینه کم و عملکرد بالا را در محیط عملیاتی (Production) بسازید، تنظیم و مقیاس‌بندی کنید.

سرفصل ها و درس ها

استنتاج مدل و انتخاب بهینه مدل Model Inference and Efficient Model Selection

  • مقدمه‌ای بر استنتاج مدل Introduction to Model Inference

  • فرآیند استنتاج در ترنسفورمر Transformer Inference Process

  • پارامترهای نمونه‌برداری و اثرات آن‌ها Sampling Parameters and Effects

  • معیارهای کلیدی عملکرد Key Performance Metrics

  • اندازه مدل، بافتار و طول تولید متن Model Size, Context, and Generation Length

  • استنتاج بافتار طولانی و KV cache Long-context Inference and KV-cache

  • بهینه‌سازی استنتاج Inference Optimization

بهینه‌سازی دسته‌بندی و نرخ پردازش Batching and Throughput Optimization

  • مقدمه‌ای بر دسته‌بندی (Batching) Introduction to Batching

  • پیاده‌سازی استراتژی‌های دسته‌بندی Implementing Batching Strategies

  • تحلیل کارایی دسته‌بندی Analyzing Batching Efficiency

  • فریم‌ورک‌های بهینه‌سازی دسته‌بندی Frameworks for Optimized Batching

  • دسته‌بندی در عمل Batching in Practice

مقیاس‌بندی GPU و ملاحظات زیرساختی GPU Scaling and Infrastructure Considerations

  • مبانی معماری GPU GPU Architecture Fundamentals

  • موازات مدل (Model Parallelism) Model Parallelism

  • مقیاس‌بندی خودکار زیرساخت GPU Auto-scaling GPU Infrastructure

  • بهینه‌سازی منابع GPU Optimizing GPU Resources

  • دموی سرعت GPU GPU Speed Demo

مهندسی هزینه و استراتژی‌های بهینه‌سازی Cost Engineering and Optimization Strategies

  • درک هزینه‌های GenAI Understanding GenAI Costs

  • مانیتورینگ و تخصیص هزینه‌ها Cost Monitoring and Attribution

  • تعادل بین هزینه و کیفیت Cost/Quality Trade-offs

  • تکنیک‌های بهینه‌سازی هزینه Cost Optimization Techniques

  • بهینه‌سازی نهایی هزینه Cost Optimization

تکنیک‌های پیشرفته استنتاج برای سرعت و کیفیت Advanced Inference Techniques for Speed and Quality

  • مقدمه‌ای بر استنتاج پیشرفته Introduction to Advanced Inference

  • رمزگشایی گمانه‌زن (Speculative Decoding) Speculative Decoding

  • کوانتیزاسیون (Quantization) Quantization

  • بهینه‌سازی‌های مکانیسم توجه (Attention) Attention Optimizations

  • فشرده‌سازی مدل Model Compression

  • سروینگ بهینه بافتارهای طولانی Efficient Long-context Serving

  • استنتاج هوشمند Smart Inference

نمایش نظرات

آموزش معماری استنتاج و سروینگ مدل‌های هوش مصنوعی مولد (GenAI)
جزییات دوره
1h 56m
29
(آخرین آپدیت)
2
از 5
دارد
دارد
دارد
Yasir Khan
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Yasir Khan Yasir Khan

معامله گر فعال فارکس