دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش معماری استنتاج و سروینگ مدل‌های هوش مصنوعی مولد (GenAI) - آخرین آپدیت

دانلود GenAI Inference and Serving Architecture

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: بهره‌برداری بهینه از مدل‌های زبانی بزرگ (LLMs) به دلیل نیازهای محاسباتی بالا، رفتارهای پیچیده نمونه‌برداری و بهینه‌سازی‌های سریع در فرآیند استنتاج، چالش‌برانگیز است. در این دوره آموزشی با عنوان «معماری استنتاج و سروینگ GenAI»، شما توانایی طراحی، تحلیل و بهینه‌سازی خط لوله‌های استنتاج (Inference Pipelines) با کارایی بالا برای مدل‌های ترنسفورمر را کسب خواهید کرد. در ابتدا، مبانی استنتاج مدل، از جمله توکن‌سازی (Tokenization)، پاس‌های پیشرو (Forward Passes)، استراتژی‌های نمونه‌برداری و معیارهای کلیدی عملکرد که بر تأخیر (Latency) و نرخ پردازش (Throughput) تأثیر می‌گذارند را بررسی می‌کنید. سپس، نحوه پیاده‌سازی دسته‌بندی (Batching)، مدیریت KV-cache و تکنیک‌های بهینه‌سازی بافتار طولانی (Long-context) را برای بهبود چشمگیر کارایی در مقیاس بالا خواهید آموخت. در نهایت، یاد می‌گیرید که چگونه بهره‌وری GPU را بهینه کنید، هزینه‌های زیرساختی را مدیریت نمایید و تکنیک‌های پیشرفته‌ای مانند رمزگشایی گمانه‌زن (Speculative Decoding)، کوانتیزاسیون (Quantization) و فشرده‌سازی مدل را به کار بگیرید. پس از اتمام این دوره، شما مهارت‌ها و دانش لازم برای بهینه‌سازی استنتاج LLM را خواهید داشت تا بتوانید سیستم‌های GenAI با هزینه کم و عملکرد بالا را در محیط عملیاتی (Production) بسازید، تنظیم و مقیاس‌بندی کنید.

سرفصل ها و درس ها

استنتاج مدل و انتخاب بهینه مدل Model Inference and Efficient Model Selection

مقدمه‌ای بر استنتاج مدل Introduction to Model Inference
فرآیند استنتاج در ترنسفورمر Transformer Inference Process
پارامترهای نمونه‌برداری و اثرات آن‌ها Sampling Parameters and Effects
معیارهای کلیدی عملکرد Key Performance Metrics
اندازه مدل، بافتار و طول تولید متن Model Size, Context, and Generation Length
استنتاج بافتار طولانی و KV cache Long-context Inference and KV-cache
بهینه‌سازی استنتاج Inference Optimization

بهینه‌سازی دسته‌بندی و نرخ پردازش Batching and Throughput Optimization

مقدمه‌ای بر دسته‌بندی (Batching) Introduction to Batching
پیاده‌سازی استراتژی‌های دسته‌بندی Implementing Batching Strategies
تحلیل کارایی دسته‌بندی Analyzing Batching Efficiency
فریم‌ورک‌های بهینه‌سازی دسته‌بندی Frameworks for Optimized Batching
دسته‌بندی در عمل Batching in Practice

مقیاس‌بندی GPU و ملاحظات زیرساختی GPU Scaling and Infrastructure Considerations

مبانی معماری GPU GPU Architecture Fundamentals
موازات مدل (Model Parallelism) Model Parallelism
مقیاس‌بندی خودکار زیرساخت GPU Auto-scaling GPU Infrastructure
بهینه‌سازی منابع GPU Optimizing GPU Resources
دموی سرعت GPU GPU Speed Demo

مهندسی هزینه و استراتژی‌های بهینه‌سازی Cost Engineering and Optimization Strategies

درک هزینه‌های GenAI Understanding GenAI Costs
مانیتورینگ و تخصیص هزینه‌ها Cost Monitoring and Attribution
تعادل بین هزینه و کیفیت Cost/Quality Trade-offs
تکنیک‌های بهینه‌سازی هزینه Cost Optimization Techniques
بهینه‌سازی نهایی هزینه Cost Optimization

تکنیک‌های پیشرفته استنتاج برای سرعت و کیفیت Advanced Inference Techniques for Speed and Quality

مقدمه‌ای بر استنتاج پیشرفته Introduction to Advanced Inference
رمزگشایی گمانه‌زن (Speculative Decoding) Speculative Decoding
کوانتیزاسیون (Quantization) Quantization
بهینه‌سازی‌های مکانیسم توجه (Attention) Attention Optimizations
فشرده‌سازی مدل Model Compression
سروینگ بهینه بافتارهای طولانی Efficient Long-context Serving
استنتاج هوشمند Smart Inference

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش معماری استنتاج و سروینگ مدل‌های هوش مصنوعی مولد (GenAI)

جزییات دوره

زمان دوره: 1h 56m

تعداد ویدیو ها: 29

شرکت: Pluralsight (پلورال سایت)

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع : 2

امتیاز مرجع: از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Yasir Khan

لینک کوتاه این دوره

https://donyad.com/d/9032a1

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Generative AI هوش مصنوعی مولد

آموزش معماری استنتاج و سروینگ مدل‌های هوش مصنوعی مولد (GenAI) - آخرین آپدیت

دانلود GenAI Inference and Serving Architecture

استنتاج مدل و انتخاب بهینه مدل Model Inference and Efficient Model Selection

مقدمه‌ای بر استنتاج مدل Introduction to Model Inference

فرآیند استنتاج در ترنسفورمر Transformer Inference Process

پارامترهای نمونه‌برداری و اثرات آن‌ها Sampling Parameters and Effects

معیارهای کلیدی عملکرد Key Performance Metrics

اندازه مدل، بافتار و طول تولید متن Model Size, Context, and Generation Length

استنتاج بافتار طولانی و KV cache Long-context Inference and KV-cache

بهینه‌سازی استنتاج Inference Optimization

بهینه‌سازی دسته‌بندی و نرخ پردازش Batching and Throughput Optimization

مقدمه‌ای بر دسته‌بندی (Batching) Introduction to Batching

پیاده‌سازی استراتژی‌های دسته‌بندی Implementing Batching Strategies

تحلیل کارایی دسته‌بندی Analyzing Batching Efficiency

فریم‌ورک‌های بهینه‌سازی دسته‌بندی Frameworks for Optimized Batching

دسته‌بندی در عمل Batching in Practice

مقیاس‌بندی GPU و ملاحظات زیرساختی GPU Scaling and Infrastructure Considerations

مبانی معماری GPU GPU Architecture Fundamentals

موازات مدل (Model Parallelism) Model Parallelism

مقیاس‌بندی خودکار زیرساخت GPU Auto-scaling GPU Infrastructure

بهینه‌سازی منابع GPU Optimizing GPU Resources

دموی سرعت GPU GPU Speed Demo

مهندسی هزینه و استراتژی‌های بهینه‌سازی Cost Engineering and Optimization Strategies

درک هزینه‌های GenAI Understanding GenAI Costs

مانیتورینگ و تخصیص هزینه‌ها Cost Monitoring and Attribution

تعادل بین هزینه و کیفیت Cost/Quality Trade-offs

تکنیک‌های بهینه‌سازی هزینه Cost Optimization Techniques

بهینه‌سازی نهایی هزینه Cost Optimization

تکنیک‌های پیشرفته استنتاج برای سرعت و کیفیت Advanced Inference Techniques for Speed and Quality

مقدمه‌ای بر استنتاج پیشرفته Introduction to Advanced Inference

رمزگشایی گمانه‌زن (Speculative Decoding) Speculative Decoding

کوانتیزاسیون (Quantization) Quantization

بهینه‌سازی‌های مکانیسم توجه (Attention) Attention Optimizations

فشرده‌سازی مدل Model Compression

سروینگ بهینه بافتارهای طولانی Efficient Long-context Serving

استنتاج هوشمند Smart Inference

نمایش نظرات

https://donyad.com/d/9032a1