دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش استقرار یادگیری عمیق: کوانتیزاسیون، سروینگ و هوش مصنوعی لبه (Edge AI) - آخرین آپدیت

دانلود Deploying Deep Learning: Quantization, Serving, and Edge AI

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: دوره «یادگیری عمیق در محیط عملیاتی: استنتاج، کوانتیزاسیون و استقرار در لبه» برای مهندسان یادگیری ماشین و توسعه‌دهندگانی طراحی شده است که می‌خواهند بر چرخه کامل استقرار تسلط یابند؛ از فشرده‌سازی و کوانتیزاسیون مدل‌ها گرفته تا سروینگ در مقیاس بالا با استفاده از vLLM، Triton، ONNX و Llama.cpp. پودمان اول به مبانی فشرده‌سازی مدل، از جمله هرس کردن (Pruning)، تقطیر (Distillation) و کوانتیزاسیون INT8/INT4 با استفاده از AWQ و GPTQ، با تمرکز بر توازن بین دقت و تأخیر می‌پردازد. پودمان دوم به بررسی معماری‌های سروینگ با بازدهی بالا، از جمله PagedAttention در vLLM، NVIDIA Triton، TensorRT و مقیاس‌بندی استنتاج در خوشه‌های GPU با الگوهای autoscaling می‌پردازد. پودمان سوم بر استقرار روی CPU و دستگاه‌های لبه (Edge) با استفاده از ONNX Runtime، GGUF و Llama.cpp و همچنین استنتاج چندوجهی با CLIP و LLaVA در دستگاه‌های با منابع محدود تمرکز دارد. پودمان چهارم یک پروژه جامع است که در آن یک مدل LLM را که Fine-tune شده است کوانتیزه می‌کنید، یک API عملیاتی با vLLM می‌سازید، عملکرد آن را بنچ‌مارک کرده و مدل خود را با Docker برای استقرار در ابر و لبه کانتینریزه می‌کنید. در پایان این دوره، شما قادر خواهید بود: - تکنیک‌های کوانتیزاسیون INT4/INT8 (مانند AWQ، GPTQ، GGUF) را برای فشرده‌سازی LLMها در محیط عملیاتی به کار ببرید. - سرورهای استنتاج با بازدهی بالا را با استفاده از vLLM، Triton و ONNX Runtime مستقر کنید. - مدل‌های بهینه‌سازی شده را روی GPU، CPU و دستگاه‌های لبه با استفاده از Llama.cpp و TensorRT اجرا کنید. - یک API استنتاج کامل و آماده تولید را ساخته، بنچ‌مارک و کانتینریزه کنید.

سرفصل ها و درس ها

فشرده‌سازی مدل، کوانتیزاسیون و بهینه‌سازی تأخیر Model Compression, Quantization & Latency Optimization

مدل‌های آموزش‌دیده در واقع کجا اجرا می‌شوند Where Trained Models Actually Run
چرا بهینه‌سازی استنتاج یک مهارت کلیدی است Why Inference Optimization Is a Top Skill
نقشه راه مهارتی: آموزش ← استنتاج ← لبه Skill Roadmap: Training → Inference → Edge
چرا مدل‌ها بیش از حد بزرگ هستند Why Models Are Too Big
سه روش برای کوچک‌تر کردن مدل‌ها Three Ways to Make Models Smaller
دقت در مقابل تأخیر: ایجاد توازن Accuracy vs Latency: Making Tradeoffs
کوانتیزاسیون واقعاً چه کاری انجام می‌دهد What Quantization Really Does
کوانتیزاسیون LLMها با AWQ و GPTQ Quantizing LLMs with AWQ & GPTQ
بنچ‌مارک: سرعت، کاهش دقت و تغییر در Perplexity Benchmarking: Speed, Accuracy Drop & Perplexity Shift

سروینگ با بازدهی بالا: vLLM، PagedAttention و Triton High-Throughput Serving - vLLM, PagedAttention & Triton

با افزایش تعداد کاربران چه مشکلاتی پیش می‌آید What Breaks When Users Increase
سرورهای استنتاج واقعاً چگونه کار می‌کنند How Inference Servers Actually Work
الگوهای API برای استنتاج API Patterns for Inference
چرا KV Cache بازدهی را محدود می‌کند Why KV Cache Limits Throughput
اجرای یک سرور vLLM Running a vLLM Server
مدیریت درخواست‌های همزمان تحت فشار Handling Concurrent Requests Under Load
چه زمانی استفاده از Triton منطقی است When Triton Makes Sense
سروینگ مدل‌های بینایی با Triton Serving Vision Models with Triton
مقیاس‌بندی در چندین GPU Scaling Across GPUs

استقرار روی ONNX، Llama.cpp و لبه/CPU ONNX, Llama.cpp & Edge / CPU Deployment

چرا ONNX اهمیت دارد Why ONNX Matters
خروجی گرفتن از LLMها و مدل‌های بینایی به ONNX - بخش اول Exporting LLMs & Vision Models to ONNX- Part 1
خروجی گرفتن از LLMها و مدل‌های بینایی به ONNX - بخش دوم Exporting LLMs & Vision Models to ONNX Part 2
افزایش سرعت استنتاج با ONNX Runtime - بخش اول Speeding Up Inference with ONNX Runtime - part 1
افزایش سرعت استنتاج با ONNX Runtime - بخش دوم Speeding Up Inference with ONNX Runtime Part 2
GGUF چیست و چرا اهمیت دارد What GGUF Is & Why It Matters
اجرای LLMها با Llama.cpp - بخش اول Running LLMs with Llama.cpp- Part 1
اجرای LLMها با Llama.cpp - بخش دوم Running LLMs with Llama.cpp Part 2
بنچ‌مارک: تأخیر، بازدهی توکن و حافظه Benchmarking: Latency, Token Throughput & Memory
چگونه CLIP متن و تصاویر را متصل می‌کند - بخش اول How CLIP Connects Text & Images- part 1
چگونه CLIP متن و تصاویر را متصل می‌کند - بخش دوم How CLIP Connects Text & Images- part 2
مدل‌های LLM تقویت شده با بینایی (LLaVA) Vision-Enhanced LLMs (LLaVA)
مدل‌های LLM تقویت شده با بینایی (LLaVA) - بخش دوم Vision-Enhanced LLMs (LLaVA)- Part 2
ساخت یک خط لوله (Pipeline) چندوجهی ساده Building a Simple Multimodal Pipeline

پروژه نهایی: ساخت API آماده برای لبه (از کوانتیزاسیون تا سروینگ و بنچ‌مارک) Final Project - The Edge-Ready API (Quantize to Serve to Benchmark)

بارگذاری مدل Fine-tune شده QLoRA/LoRA - بخش اول Loading Your QLoRA/LoRA Fine-Tuned Model - Part 1
بارگذاری مدل Fine-tune شده QLoRA/LoRA - بخش دوم Loading Your QLoRA/LoRA Fine-Tuned Model Part2
پیکربندی PEFT با LoRA Configure PEFT with LoRA
اعتبارسنجی کیفیت در مقابل سرعت Validating Quality vs Speed
بارگذاری و پیش‌پردازش مجموعه داده Load and Preprocess the Dataset
تولید و ذخیره خروجی‌های مدل قبل از Fine-tuning Generate and Store Model Outputs Before Fine-Tuning
پیکربندی آرگومان‌های آموزش و Fine-tune کردن مدل Configure Training Arguments and Fine-Tune the Model
مقایسه خروجی‌های مدل بعد از Fine-tuning Compare Model Outputs After Fine-Tuning
داکرایز کردن سرویس Dockerizing the Service
اجرا در ابر، CPU و لبه Running on Cloud, CPU & Edge

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش استقرار یادگیری عمیق: کوانتیزاسیون، سروینگ و هوش مصنوعی لبه (Edge AI)

جزییات دوره

زمان دوره: 21h 5m

تعداد ویدیو ها: 42

شرکت: Coursera (کورسرا)

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع : 108

امتیاز مرجع: - از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Board Infinity

لینک کوتاه این دوره

https://donyad.com/d/dc6adc

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

آموزش استقرار یادگیری عمیق: کوانتیزاسیون، سروینگ و هوش مصنوعی لبه (Edge AI) - آخرین آپدیت

دانلود Deploying Deep Learning: Quantization, Serving, and Edge AI

فشرده‌سازی مدل، کوانتیزاسیون و بهینه‌سازی تأخیر Model Compression, Quantization & Latency Optimization

مدل‌های آموزش‌دیده در واقع کجا اجرا می‌شوند Where Trained Models Actually Run

چرا بهینه‌سازی استنتاج یک مهارت کلیدی است Why Inference Optimization Is a Top Skill

نقشه راه مهارتی: آموزش ← استنتاج ← لبه Skill Roadmap: Training → Inference → Edge

چرا مدل‌ها بیش از حد بزرگ هستند Why Models Are Too Big

سه روش برای کوچک‌تر کردن مدل‌ها Three Ways to Make Models Smaller

دقت در مقابل تأخیر: ایجاد توازن Accuracy vs Latency: Making Tradeoffs

کوانتیزاسیون واقعاً چه کاری انجام می‌دهد What Quantization Really Does

کوانتیزاسیون LLMها با AWQ و GPTQ Quantizing LLMs with AWQ & GPTQ

بنچ‌مارک: سرعت، کاهش دقت و تغییر در Perplexity Benchmarking: Speed, Accuracy Drop & Perplexity Shift

سروینگ با بازدهی بالا: vLLM، PagedAttention و Triton High-Throughput Serving - vLLM, PagedAttention & Triton

با افزایش تعداد کاربران چه مشکلاتی پیش می‌آید What Breaks When Users Increase

سرورهای استنتاج واقعاً چگونه کار می‌کنند How Inference Servers Actually Work

الگوهای API برای استنتاج API Patterns for Inference

چرا KV Cache بازدهی را محدود می‌کند Why KV Cache Limits Throughput

اجرای یک سرور vLLM Running a vLLM Server

مدیریت درخواست‌های همزمان تحت فشار Handling Concurrent Requests Under Load

چه زمانی استفاده از Triton منطقی است When Triton Makes Sense

سروینگ مدل‌های بینایی با Triton Serving Vision Models with Triton

مقیاس‌بندی در چندین GPU Scaling Across GPUs

استقرار روی ONNX، Llama.cpp و لبه/CPU ONNX, Llama.cpp & Edge / CPU Deployment

چرا ONNX اهمیت دارد Why ONNX Matters

خروجی گرفتن از LLMها و مدل‌های بینایی به ONNX - بخش اول Exporting LLMs & Vision Models to ONNX- Part 1

خروجی گرفتن از LLMها و مدل‌های بینایی به ONNX - بخش دوم Exporting LLMs & Vision Models to ONNX Part 2

افزایش سرعت استنتاج با ONNX Runtime - بخش اول Speeding Up Inference with ONNX Runtime - part 1

افزایش سرعت استنتاج با ONNX Runtime - بخش دوم Speeding Up Inference with ONNX Runtime Part 2

GGUF چیست و چرا اهمیت دارد What GGUF Is & Why It Matters

اجرای LLMها با Llama.cpp - بخش اول Running LLMs with Llama.cpp- Part 1

اجرای LLMها با Llama.cpp - بخش دوم Running LLMs with Llama.cpp Part 2

بنچ‌مارک: تأخیر، بازدهی توکن و حافظه Benchmarking: Latency, Token Throughput & Memory

چگونه CLIP متن و تصاویر را متصل می‌کند - بخش اول How CLIP Connects Text & Images- part 1

چگونه CLIP متن و تصاویر را متصل می‌کند - بخش دوم How CLIP Connects Text & Images- part 2

مدل‌های LLM تقویت شده با بینایی (LLaVA) Vision-Enhanced LLMs (LLaVA)

مدل‌های LLM تقویت شده با بینایی (LLaVA) - بخش دوم Vision-Enhanced LLMs (LLaVA)- Part 2

ساخت یک خط لوله (Pipeline) چندوجهی ساده Building a Simple Multimodal Pipeline

پروژه نهایی: ساخت API آماده برای لبه (از کوانتیزاسیون تا سروینگ و بنچ‌مارک) Final Project - The Edge-Ready API (Quantize to Serve to Benchmark)

بارگذاری مدل Fine-tune شده QLoRA/LoRA - بخش اول Loading Your QLoRA/LoRA Fine-Tuned Model - Part 1

بارگذاری مدل Fine-tune شده QLoRA/LoRA - بخش دوم Loading Your QLoRA/LoRA Fine-Tuned Model Part2

پیکربندی PEFT با LoRA Configure PEFT with LoRA

اعتبارسنجی کیفیت در مقابل سرعت Validating Quality vs Speed

بارگذاری و پیش‌پردازش مجموعه داده Load and Preprocess the Dataset

تولید و ذخیره خروجی‌های مدل قبل از Fine-tuning Generate and Store Model Outputs Before Fine-Tuning

پیکربندی آرگومان‌های آموزش و Fine-tune کردن مدل Configure Training Arguments and Fine-Tune the Model

مقایسه خروجی‌های مدل بعد از Fine-tuning Compare Model Outputs After Fine-Tuning

داکرایز کردن سرویس Dockerizing the Service

اجرا در ابر، CPU و لبه Running on Cloud, CPU & Edge

نمایش نظرات

https://donyad.com/d/dc6adc