آموزش استقرار یادگیری عمیق: کوانتیزاسیون، سروینگ و هوش مصنوعی لبه (Edge AI) - آخرین آپدیت

دانلود Deploying Deep Learning: Quantization, Serving, and Edge AI

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: دوره «یادگیری عمیق در محیط عملیاتی: استنتاج، کوانتیزاسیون و استقرار در لبه» برای مهندسان یادگیری ماشین و توسعه‌دهندگانی طراحی شده است که می‌خواهند بر چرخه کامل استقرار تسلط یابند؛ از فشرده‌سازی و کوانتیزاسیون مدل‌ها گرفته تا سروینگ در مقیاس بالا با استفاده از vLLM، Triton، ONNX و Llama.cpp. پودمان اول به مبانی فشرده‌سازی مدل، از جمله هرس کردن (Pruning)، تقطیر (Distillation) و کوانتیزاسیون INT8/INT4 با استفاده از AWQ و GPTQ، با تمرکز بر توازن بین دقت و تأخیر می‌پردازد. پودمان دوم به بررسی معماری‌های سروینگ با بازدهی بالا، از جمله PagedAttention در vLLM، NVIDIA Triton، TensorRT و مقیاس‌بندی استنتاج در خوشه‌های GPU با الگوهای autoscaling می‌پردازد. پودمان سوم بر استقرار روی CPU و دستگاه‌های لبه (Edge) با استفاده از ONNX Runtime، GGUF و Llama.cpp و همچنین استنتاج چندوجهی با CLIP و LLaVA در دستگاه‌های با منابع محدود تمرکز دارد. پودمان چهارم یک پروژه جامع است که در آن یک مدل LLM را که Fine-tune شده است کوانتیزه می‌کنید، یک API عملیاتی با vLLM می‌سازید، عملکرد آن را بنچ‌مارک کرده و مدل خود را با Docker برای استقرار در ابر و لبه کانتینریزه می‌کنید. در پایان این دوره، شما قادر خواهید بود: - تکنیک‌های کوانتیزاسیون INT4/INT8 (مانند AWQ، GPTQ، GGUF) را برای فشرده‌سازی LLMها در محیط عملیاتی به کار ببرید. - سرورهای استنتاج با بازدهی بالا را با استفاده از vLLM، Triton و ONNX Runtime مستقر کنید. - مدل‌های بهینه‌سازی شده را روی GPU، CPU و دستگاه‌های لبه با استفاده از Llama.cpp و TensorRT اجرا کنید. - یک API استنتاج کامل و آماده تولید را ساخته، بنچ‌مارک و کانتینریزه کنید.

سرفصل ها و درس ها

فشرده‌سازی مدل، کوانتیزاسیون و بهینه‌سازی تأخیر Model Compression, Quantization & Latency Optimization

  • مدل‌های آموزش‌دیده در واقع کجا اجرا می‌شوند Where Trained Models Actually Run

  • چرا بهینه‌سازی استنتاج یک مهارت کلیدی است Why Inference Optimization Is a Top Skill

  • نقشه راه مهارتی: آموزش ← استنتاج ← لبه Skill Roadmap: Training → Inference → Edge

  • چرا مدل‌ها بیش از حد بزرگ هستند Why Models Are Too Big

  • سه روش برای کوچک‌تر کردن مدل‌ها Three Ways to Make Models Smaller

  • دقت در مقابل تأخیر: ایجاد توازن Accuracy vs Latency: Making Tradeoffs

  • کوانتیزاسیون واقعاً چه کاری انجام می‌دهد What Quantization Really Does

  • کوانتیزاسیون LLMها با AWQ و GPTQ Quantizing LLMs with AWQ & GPTQ

  • بنچ‌مارک: سرعت، کاهش دقت و تغییر در Perplexity Benchmarking: Speed, Accuracy Drop & Perplexity Shift

سروینگ با بازدهی بالا: vLLM، PagedAttention و Triton High-Throughput Serving - vLLM, PagedAttention & Triton

  • با افزایش تعداد کاربران چه مشکلاتی پیش می‌آید What Breaks When Users Increase

  • سرورهای استنتاج واقعاً چگونه کار می‌کنند How Inference Servers Actually Work

  • الگوهای API برای استنتاج API Patterns for Inference

  • چرا KV Cache بازدهی را محدود می‌کند Why KV Cache Limits Throughput

  • اجرای یک سرور vLLM Running a vLLM Server

  • مدیریت درخواست‌های همزمان تحت فشار Handling Concurrent Requests Under Load

  • چه زمانی استفاده از Triton منطقی است When Triton Makes Sense

  • سروینگ مدل‌های بینایی با Triton Serving Vision Models with Triton

  • مقیاس‌بندی در چندین GPU Scaling Across GPUs

استقرار روی ONNX، Llama.cpp و لبه/CPU ONNX, Llama.cpp & Edge / CPU Deployment

  • چرا ONNX اهمیت دارد Why ONNX Matters

  • خروجی گرفتن از LLMها و مدل‌های بینایی به ONNX - بخش اول Exporting LLMs & Vision Models to ONNX- Part 1

  • خروجی گرفتن از LLMها و مدل‌های بینایی به ONNX - بخش دوم Exporting LLMs & Vision Models to ONNX Part 2

  • افزایش سرعت استنتاج با ONNX Runtime - بخش اول Speeding Up Inference with ONNX Runtime - part 1

  • افزایش سرعت استنتاج با ONNX Runtime - بخش دوم Speeding Up Inference with ONNX Runtime Part 2

  • GGUF چیست و چرا اهمیت دارد What GGUF Is & Why It Matters

  • اجرای LLMها با Llama.cpp - بخش اول Running LLMs with Llama.cpp- Part 1

  • اجرای LLMها با Llama.cpp - بخش دوم Running LLMs with Llama.cpp Part 2

  • بنچ‌مارک: تأخیر، بازدهی توکن و حافظه Benchmarking: Latency, Token Throughput & Memory

  • چگونه CLIP متن و تصاویر را متصل می‌کند - بخش اول How CLIP Connects Text & Images- part 1

  • چگونه CLIP متن و تصاویر را متصل می‌کند - بخش دوم How CLIP Connects Text & Images- part 2

  • مدل‌های LLM تقویت شده با بینایی (LLaVA) Vision-Enhanced LLMs (LLaVA)

  • مدل‌های LLM تقویت شده با بینایی (LLaVA) - بخش دوم Vision-Enhanced LLMs (LLaVA)- Part 2

  • ساخت یک خط لوله (Pipeline) چندوجهی ساده Building a Simple Multimodal Pipeline

پروژه نهایی: ساخت API آماده برای لبه (از کوانتیزاسیون تا سروینگ و بنچ‌مارک) Final Project - The Edge-Ready API (Quantize to Serve to Benchmark)

  • بارگذاری مدل Fine-tune شده QLoRA/LoRA - بخش اول Loading Your QLoRA/LoRA Fine-Tuned Model - Part 1

  • بارگذاری مدل Fine-tune شده QLoRA/LoRA - بخش دوم Loading Your QLoRA/LoRA Fine-Tuned Model Part2

  • پیکربندی PEFT با LoRA Configure PEFT with LoRA

  • اعتبارسنجی کیفیت در مقابل سرعت Validating Quality vs Speed

  • بارگذاری و پیش‌پردازش مجموعه داده Load and Preprocess the Dataset

  • تولید و ذخیره خروجی‌های مدل قبل از Fine-tuning Generate and Store Model Outputs Before Fine-Tuning

  • پیکربندی آرگومان‌های آموزش و Fine-tune کردن مدل Configure Training Arguments and Fine-Tune the Model

  • مقایسه خروجی‌های مدل بعد از Fine-tuning Compare Model Outputs After Fine-Tuning

  • داکرایز کردن سرویس Dockerizing the Service

  • اجرا در ابر، CPU و لبه Running on Cloud, CPU & Edge

نمایش نظرات

آموزش استقرار یادگیری عمیق: کوانتیزاسیون، سروینگ و هوش مصنوعی لبه (Edge AI)
جزییات دوره
21h 5m
42
(آخرین آپدیت)
108
- از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Board Infinity Board Infinity

Board Infinity: توانمندسازی مشاغل با مسیرهای یادگیری