آموزش معماری استنتاج و سروینگ هوش مصنوعی مولد (GenAI) - آخرین آپدیت

دانلود GenAI Inference and Serving Architecture

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: استقرار بهینه مدل‌های زبانی بزرگ (LLM) به دلیل نیازهای محاسباتی بالا، رفتارهای پیچیده نمونه‌برداری و بهینه‌سازی‌های سریع در حوزه استنتاج، چالشی بزرگ است. در این دوره آموزشی با عنوان «معماری استنتاج و سروینگ GenAI»، شما توانایی طراحی، تحلیل و بهینه‌سازی خط لوله‌های استنتاج با کارایی بالا برای مدل‌های ترنسفورمر را کسب خواهید کرد. در ابتدا، مفاهیم بنیادی استنتاج مدل، از جمله توکنایزیشن (Tokenization)، گذرهای پیشرو (Forward Passes)، استراتژی‌های نمونه‌برداری و معیارهای کلیدی عملکرد که بر تأخیر (Latency) و نرخ تراکم (Throughput) اثر می‌گذارند را بررسی می‌کنید. سپس، نحوه پیاده‌سازی دسته‌بندی (Batching)، مدیریت KV-cache و تکنیک‌های بهینه‌سازی بافتار طولانی (Long-context) را برای بهبود چشمگیر کارایی در مقیاس بالا خواهید آموخت. در نهایت، روش‌های بهینه‌سازی بهره‌وری GPU، مدیریت هزینه‌های زیرساختی و به‌کارگیری تکنیک‌های پیشرفته‌ای مانند رمزگشایی گمانه‌زن (Speculative Decoding)، کوانتیزاسیون (Quantization) و فشرده‌سازی مدل را فرا خواهید گرفت. پس از اتمام این دوره، شما مهارت‌ها و دانش لازم برای بهینه‌سازی استنتاج LLM را خواهید داشت تا بتوانید سیستم‌های GenAI کم‌هزینه و با کارایی بالا را در محیط عملیاتی (Production) بسازید، تنظیم و مقیاس‌بندی کنید.

سرفصل ها و درس ها

استنتاج مدل و انتخاب بهینه مدل Model Inference and Efficient Model Selection

  • آشنایی با استنتاج مدل Introduction to Model Inference

  • فرآیند استنتاج ترنسفورمر Transformer Inference Process

  • پارامترهای نمونه‌برداری و اثرات آن‌ها Sampling Parameters and Effects

  • معیارهای کلیدی عملکرد Key Performance Metrics

  • اندازه مدل، بافتار و طول تولید متن Model Size, Context, and Generation Length

  • استنتاج بافتار طولانی و KV cache Long-context Inference and KV-cache

  • بهینه‌سازی استنتاج Inference Optimization

بهینه‌سازی دسته‌بندی و نرخ تراکم Batching and Throughput Optimization

  • آشنایی با دسته‌بندی (Batching) Introduction to Batching

  • پیاده‌سازی استراتژی‌های دسته‌بندی Implementing Batching Strategies

  • تحلیل کارایی دسته‌بندی Analyzing Batching Efficiency

  • فریم‌ورک‌های بهینه‌سازی دسته‌بندی Frameworks for Optimized Batching

  • دسته‌بندی در عمل Batching in Practice

مقیاس‌بندی GPU و ملاحظات زیرساختی GPU Scaling and Infrastructure Considerations

  • مبانی معماری GPU GPU Architecture Fundamentals

  • موازی‌سازی مدل Model Parallelism

  • مقیاس‌بندی خودکار زیرساخت GPU Auto-scaling GPU Infrastructure

  • بهینه‌سازی منابع GPU Optimizing GPU Resources

  • دموی سرعت GPU GPU Speed Demo

مهندسی هزینه و استراتژی‌های بهینه‌سازی Cost Engineering and Optimization Strategies

  • درک هزینه‌های GenAI Understanding GenAI Costs

  • مانیتورینگ و تخصیص هزینه‌ها Cost Monitoring and Attribution

  • تعادل بین هزینه و کیفیت Cost/Quality Trade-offs

  • تکنیک‌های بهینه‌سازی هزینه Cost Optimization Techniques

  • بهینه‌سازی نهایی هزینه‌ها Cost Optimization

تکنیک‌های پیشرفته استنتاج برای سرعت و کیفیت Advanced Inference Techniques for Speed and Quality

  • آشنایی با استنتاج پیشرفته Introduction to Advanced Inference

  • رمزگشایی گمانه‌زن (Speculative Decoding) Speculative Decoding

  • کوانتیزاسیون (Quantization) Quantization

  • بهینه‌سازی‌های مکانیزم توجه (Attention) Attention Optimizations

  • فشرده‌سازی مدل Model Compression

  • سروینگ بهینه برای بافتارهای طولانی Efficient Long-context Serving

  • استنتاج هوشمند Smart Inference

نمایش نظرات

آموزش معماری استنتاج و سروینگ هوش مصنوعی مولد (GenAI)
جزییات دوره
1h 56m
29
(آخرین آپدیت)
2
از 5
دارد
دارد
دارد
Yasir Khan
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Yasir Khan Yasir Khan

معامله گر فعال فارکس