دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش معماری استنتاج و سروینگ هوش مصنوعی مولد (GenAI) - آخرین آپدیت

دانلود GenAI Inference and Serving Architecture

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: استقرار بهینه مدل‌های زبانی بزرگ (LLM) به دلیل نیازهای محاسباتی بالا، رفتارهای پیچیده نمونه‌برداری و بهینه‌سازی‌های سریع در حوزه استنتاج، چالشی بزرگ است. در این دوره آموزشی با عنوان «معماری استنتاج و سروینگ GenAI»، شما توانایی طراحی، تحلیل و بهینه‌سازی خط لوله‌های استنتاج با کارایی بالا برای مدل‌های ترنسفورمر را کسب خواهید کرد. در ابتدا، مفاهیم بنیادی استنتاج مدل، از جمله توکنایزیشن (Tokenization)، گذرهای پیشرو (Forward Passes)، استراتژی‌های نمونه‌برداری و معیارهای کلیدی عملکرد که بر تأخیر (Latency) و نرخ تراکم (Throughput) اثر می‌گذارند را بررسی می‌کنید. سپس، نحوه پیاده‌سازی دسته‌بندی (Batching)، مدیریت KV-cache و تکنیک‌های بهینه‌سازی بافتار طولانی (Long-context) را برای بهبود چشمگیر کارایی در مقیاس بالا خواهید آموخت. در نهایت، روش‌های بهینه‌سازی بهره‌وری GPU، مدیریت هزینه‌های زیرساختی و به‌کارگیری تکنیک‌های پیشرفته‌ای مانند رمزگشایی گمانه‌زن (Speculative Decoding)، کوانتیزاسیون (Quantization) و فشرده‌سازی مدل را فرا خواهید گرفت. پس از اتمام این دوره، شما مهارت‌ها و دانش لازم برای بهینه‌سازی استنتاج LLM را خواهید داشت تا بتوانید سیستم‌های GenAI کم‌هزینه و با کارایی بالا را در محیط عملیاتی (Production) بسازید، تنظیم و مقیاس‌بندی کنید.

سرفصل ها و درس ها

استنتاج مدل و انتخاب بهینه مدل Model Inference and Efficient Model Selection

آشنایی با استنتاج مدل Introduction to Model Inference
فرآیند استنتاج ترنسفورمر Transformer Inference Process
پارامترهای نمونه‌برداری و اثرات آن‌ها Sampling Parameters and Effects
معیارهای کلیدی عملکرد Key Performance Metrics
اندازه مدل، بافتار و طول تولید متن Model Size, Context, and Generation Length
استنتاج بافتار طولانی و KV cache Long-context Inference and KV-cache
بهینه‌سازی استنتاج Inference Optimization

بهینه‌سازی دسته‌بندی و نرخ تراکم Batching and Throughput Optimization

آشنایی با دسته‌بندی (Batching) Introduction to Batching
پیاده‌سازی استراتژی‌های دسته‌بندی Implementing Batching Strategies
تحلیل کارایی دسته‌بندی Analyzing Batching Efficiency
فریم‌ورک‌های بهینه‌سازی دسته‌بندی Frameworks for Optimized Batching
دسته‌بندی در عمل Batching in Practice

مقیاس‌بندی GPU و ملاحظات زیرساختی GPU Scaling and Infrastructure Considerations

مبانی معماری GPU GPU Architecture Fundamentals
موازی‌سازی مدل Model Parallelism
مقیاس‌بندی خودکار زیرساخت GPU Auto-scaling GPU Infrastructure
بهینه‌سازی منابع GPU Optimizing GPU Resources
دموی سرعت GPU GPU Speed Demo

مهندسی هزینه و استراتژی‌های بهینه‌سازی Cost Engineering and Optimization Strategies

درک هزینه‌های GenAI Understanding GenAI Costs
مانیتورینگ و تخصیص هزینه‌ها Cost Monitoring and Attribution
تعادل بین هزینه و کیفیت Cost/Quality Trade-offs
تکنیک‌های بهینه‌سازی هزینه Cost Optimization Techniques
بهینه‌سازی نهایی هزینه‌ها Cost Optimization

تکنیک‌های پیشرفته استنتاج برای سرعت و کیفیت Advanced Inference Techniques for Speed and Quality

آشنایی با استنتاج پیشرفته Introduction to Advanced Inference
رمزگشایی گمانه‌زن (Speculative Decoding) Speculative Decoding
کوانتیزاسیون (Quantization) Quantization
بهینه‌سازی‌های مکانیزم توجه (Attention) Attention Optimizations
فشرده‌سازی مدل Model Compression
سروینگ بهینه برای بافتارهای طولانی Efficient Long-context Serving
استنتاج هوشمند Smart Inference

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش معماری استنتاج و سروینگ هوش مصنوعی مولد (GenAI)

جزییات دوره

زمان دوره: 1h 56m

تعداد ویدیو ها: 29

شرکت: Pluralsight (پلورال سایت)

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع : 2

امتیاز مرجع: از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Yasir Khan

لینک کوتاه این دوره

https://donyad.com/d/9fb495

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Generative AI هوش مصنوعی مولد

آموزش معماری استنتاج و سروینگ هوش مصنوعی مولد (GenAI) - آخرین آپدیت

دانلود GenAI Inference and Serving Architecture

استنتاج مدل و انتخاب بهینه مدل Model Inference and Efficient Model Selection

آشنایی با استنتاج مدل Introduction to Model Inference

فرآیند استنتاج ترنسفورمر Transformer Inference Process

پارامترهای نمونه‌برداری و اثرات آن‌ها Sampling Parameters and Effects

معیارهای کلیدی عملکرد Key Performance Metrics

اندازه مدل، بافتار و طول تولید متن Model Size, Context, and Generation Length

استنتاج بافتار طولانی و KV cache Long-context Inference and KV-cache

بهینه‌سازی استنتاج Inference Optimization

بهینه‌سازی دسته‌بندی و نرخ تراکم Batching and Throughput Optimization

آشنایی با دسته‌بندی (Batching) Introduction to Batching

پیاده‌سازی استراتژی‌های دسته‌بندی Implementing Batching Strategies

تحلیل کارایی دسته‌بندی Analyzing Batching Efficiency

فریم‌ورک‌های بهینه‌سازی دسته‌بندی Frameworks for Optimized Batching

دسته‌بندی در عمل Batching in Practice

مقیاس‌بندی GPU و ملاحظات زیرساختی GPU Scaling and Infrastructure Considerations

مبانی معماری GPU GPU Architecture Fundamentals

موازی‌سازی مدل Model Parallelism

مقیاس‌بندی خودکار زیرساخت GPU Auto-scaling GPU Infrastructure

بهینه‌سازی منابع GPU Optimizing GPU Resources

دموی سرعت GPU GPU Speed Demo

مهندسی هزینه و استراتژی‌های بهینه‌سازی Cost Engineering and Optimization Strategies

درک هزینه‌های GenAI Understanding GenAI Costs

مانیتورینگ و تخصیص هزینه‌ها Cost Monitoring and Attribution

تعادل بین هزینه و کیفیت Cost/Quality Trade-offs

تکنیک‌های بهینه‌سازی هزینه Cost Optimization Techniques

بهینه‌سازی نهایی هزینه‌ها Cost Optimization

تکنیک‌های پیشرفته استنتاج برای سرعت و کیفیت Advanced Inference Techniques for Speed and Quality

آشنایی با استنتاج پیشرفته Introduction to Advanced Inference

رمزگشایی گمانه‌زن (Speculative Decoding) Speculative Decoding

کوانتیزاسیون (Quantization) Quantization

بهینه‌سازی‌های مکانیزم توجه (Attention) Attention Optimizations

فشرده‌سازی مدل Model Compression

سروینگ بهینه برای بافتارهای طولانی Efficient Long-context Serving

استنتاج هوشمند Smart Inference

نمایش نظرات

https://donyad.com/d/9fb495