لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش استقرار یادگیری عمیق: کوانتیزاسیون، سروینگ و هوش مصنوعی لبه (Edge AI)
- آخرین آپدیت
دانلود Deploying Deep Learning: Quantization, Serving, and Edge AI
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
دوره «یادگیری عمیق در محیط عملیاتی: استنتاج، کوانتیزاسیون و استقرار در لبه» برای مهندسان یادگیری ماشین و توسعهدهندگانی طراحی شده است که میخواهند بر چرخه کامل استقرار تسلط یابند؛ از فشردهسازی و کوانتیزاسیون مدلها گرفته تا سروینگ در مقیاس بالا با استفاده از vLLM، Triton، ONNX و Llama.cpp.
پودمان اول به مبانی فشردهسازی مدل، از جمله هرس کردن (Pruning)، تقطیر (Distillation) و کوانتیزاسیون INT8/INT4 با استفاده از AWQ و GPTQ، با تمرکز بر توازن بین دقت و تأخیر میپردازد.
پودمان دوم به بررسی معماریهای سروینگ با بازدهی بالا، از جمله PagedAttention در vLLM، NVIDIA Triton، TensorRT و مقیاسبندی استنتاج در خوشههای GPU با الگوهای autoscaling میپردازد.
پودمان سوم بر استقرار روی CPU و دستگاههای لبه (Edge) با استفاده از ONNX Runtime، GGUF و Llama.cpp و همچنین استنتاج چندوجهی با CLIP و LLaVA در دستگاههای با منابع محدود تمرکز دارد.
پودمان چهارم یک پروژه جامع است که در آن یک مدل LLM را که Fine-tune شده است کوانتیزه میکنید، یک API عملیاتی با vLLM میسازید، عملکرد آن را بنچمارک کرده و مدل خود را با Docker برای استقرار در ابر و لبه کانتینریزه میکنید.
در پایان این دوره، شما قادر خواهید بود:
- تکنیکهای کوانتیزاسیون INT4/INT8 (مانند AWQ، GPTQ، GGUF) را برای فشردهسازی LLMها در محیط عملیاتی به کار ببرید.
- سرورهای استنتاج با بازدهی بالا را با استفاده از vLLM، Triton و ONNX Runtime مستقر کنید.
- مدلهای بهینهسازی شده را روی GPU، CPU و دستگاههای لبه با استفاده از Llama.cpp و TensorRT اجرا کنید.
- یک API استنتاج کامل و آماده تولید را ساخته، بنچمارک و کانتینریزه کنید.
سرفصل ها و درس ها
فشردهسازی مدل، کوانتیزاسیون و بهینهسازی تأخیر
Model Compression, Quantization & Latency Optimization
مدلهای آموزشدیده در واقع کجا اجرا میشوند
Where Trained Models Actually Run
چرا بهینهسازی استنتاج یک مهارت کلیدی است
Why Inference Optimization Is a Top Skill
نقشه راه مهارتی: آموزش ← استنتاج ← لبه
Skill Roadmap: Training → Inference → Edge
چرا مدلها بیش از حد بزرگ هستند
Why Models Are Too Big
سه روش برای کوچکتر کردن مدلها
Three Ways to Make Models Smaller
دقت در مقابل تأخیر: ایجاد توازن
Accuracy vs Latency: Making Tradeoffs
کوانتیزاسیون واقعاً چه کاری انجام میدهد
What Quantization Really Does
کوانتیزاسیون LLMها با AWQ و GPTQ
Quantizing LLMs with AWQ & GPTQ
بنچمارک: سرعت، کاهش دقت و تغییر در Perplexity
Benchmarking: Speed, Accuracy Drop & Perplexity Shift
سروینگ با بازدهی بالا: vLLM، PagedAttention و Triton
High-Throughput Serving - vLLM, PagedAttention & Triton
با افزایش تعداد کاربران چه مشکلاتی پیش میآید
What Breaks When Users Increase
سرورهای استنتاج واقعاً چگونه کار میکنند
How Inference Servers Actually Work
الگوهای API برای استنتاج
API Patterns for Inference
چرا KV Cache بازدهی را محدود میکند
Why KV Cache Limits Throughput
اجرای یک سرور vLLM
Running a vLLM Server
مدیریت درخواستهای همزمان تحت فشار
Handling Concurrent Requests Under Load
چه زمانی استفاده از Triton منطقی است
When Triton Makes Sense
سروینگ مدلهای بینایی با Triton
Serving Vision Models with Triton
مقیاسبندی در چندین GPU
Scaling Across GPUs
استقرار روی ONNX، Llama.cpp و لبه/CPU
ONNX, Llama.cpp & Edge / CPU Deployment
چرا ONNX اهمیت دارد
Why ONNX Matters
خروجی گرفتن از LLMها و مدلهای بینایی به ONNX - بخش اول
Exporting LLMs & Vision Models to ONNX- Part 1
خروجی گرفتن از LLMها و مدلهای بینایی به ONNX - بخش دوم
Exporting LLMs & Vision Models to ONNX Part 2
افزایش سرعت استنتاج با ONNX Runtime - بخش اول
Speeding Up Inference with ONNX Runtime - part 1
افزایش سرعت استنتاج با ONNX Runtime - بخش دوم
Speeding Up Inference with ONNX Runtime Part 2
GGUF چیست و چرا اهمیت دارد
What GGUF Is & Why It Matters
اجرای LLMها با Llama.cpp - بخش اول
Running LLMs with Llama.cpp- Part 1
اجرای LLMها با Llama.cpp - بخش دوم
Running LLMs with Llama.cpp Part 2
نمایش نظرات