آموزش استقرار مدل‌های زبانی بزرگ (LLM) در محیط عملیاتی: vLLM، FastAPI، Modal و چت‌بات هوشمند - آخرین آپدیت

دانلود Production LLM Deployment: vLLM,FastAPI,Modal and AI Chatbot

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: استقرار LLM در سطح صنعتی و استنتاج با بار بالا (High-Load) با استفاده از vLLM، طراحی چت‌بات‌های دارای حافظه و پیاده‌سازی کش محلی برای وزن‌های مدل. تسلط بر Volume Mapping برای مدیریت بهینه فضای ذخیره‌سازی مدل، کاهش بازیابی داده‌های تکراری، بهینه‌سازی ذخیره وزن‌ها و افزایش سرعت دسترسی از طریق ذخیره‌ساز محلی. یادگیری استقرار مدل‌های هوش مصنوعی با vLLM، مدیریت هزاران درخواست همزمان و طراحی معماری‌های ماژولار برای دانلود و استنتاج بهینه مدل. ساخت یک چت‌بات هوش مصنوعی مکالمه‌محور با پایتون و ادغام APIهای OpenAI برای ایجاد چت‌های بلادرنگ و روان با مدل‌های زبانی مستقر شده. استفاده از FastAPI و vLLM برای ساخت APIهای بهینه و سازگار با استاندارد OpenAI. استقرار نقاط اتصال REST API در کانتینرها برای تعامل یکپارچه مدل‌های AI با اپلیکیشن‌های خارجی. به‌کارگیری همزمانی (Concurrency) و همگام‌سازی (Synchronization) برای مدیریت مدل و تضمین در دسترس بودن بالا. بهینه‌سازی استفاده از GPU برای مدیریت بهینه درخواست‌های استنتاج موازی. طراحی سیستم‌های مقیاس‌پذیر با استفاده از وزن‌های محلی مدل و ذخیره‌سازی بهینه. ایمن‌سازی برنامه‌ها با استفاده از احراز هویت پیشرفته و کنترل دسترسی مبتنی بر توکن. اجرای توابع سنگین GPU یا CPU برنامه‌های محلی شما بر روی زیرساخت‌های قدرتمند و راه دور Modal. استقرار مدل‌های هوش مصنوعی تنها با یک دستور برای اجرا روی زیرساخت راه دور که در کد برنامه شما تعریف شده است. پیاده‌سازی Web APIها: تبدیل توابع پایتون به سرویس‌های وب با استفاده از FastAPI در Modal و ادغام موثر با برنامه‌های چندزبانه. پیش نیازها: مهارت‌های پایه پایتون: آشنایی با برنامه‌نویسی پایتون، زیرا دوره شامل اسکریپت‌نویسی و ابزارهای مبتنی بر پایتون است. درک مفاهیم یادگیری ماشین: آشنایی بنیادی با اصول و گردش‌کارهای یادگیری ماشین برای کمک به اجرای استراتژی‌های استقرار. تجربه کار با رابط خط فرمان (CLI): توانایی استفاده از ابزارهای خط فرمان برای نصب پکیج‌ها و اجرای اسکریپت‌ها. دسترسی به کامپیوتر و اینترنت: داشتن یک سیستم مناسب با دسترسی به اینترنت برای انجام تمرینات ابری و استقرار مدل‌ها.

این دوره ترکیبی از درک تئوری و کاربردهای عملی با تمرکز بر پروژه‌های Hands-on است تا زبان‌آموزان را از مفاهیم پایه به استراتژی‌های پیشرفته استقرار برساند. شما نه تنها یاد می‌گیرید مدل‌های AI را به روش‌های مختلف مستقر کنید، بلکه یک چت‌بات دارای حافظه می‌سازید که با نقطه اتصال (Endpoint) استنتاج صنعتی شما تعامل داشته و قادر به پشتیبانی از هزاران درخواست باشد. تخصص لازم برای استقرار برنامه‌های AI مقیاس‌پذیر و تعاملی را با اطمینان و کارایی کسب کنید. چه در حال ساخت برنامه‌های تجاری، تعامل با مشتری یا پروژه‌های شخصی باشید، این دوره دروازه شما برای تسلط بر استقرار مدل‌های AI است. این دوره شما را به دانش و مهارت‌های لازم برای طراحی سرویس‌های استنتاج قدرتمند با استفاده از ابزارهای پیشرو مانند فریم‌ورک vLLM، FastAPI و Modal مجهز می‌کند.

آنچه خواهید آموخت:

نقشه‌برداری استراتژیک Volume برای مدیریت بهینه مدل: یاد بگیرید چگونه حجم‌های ذخیره‌سازی را به دقت مدیریت کنید تا بازیابی داده‌های تکراری کاهش و ذخیره‌سازی وزن‌های مدل بهینه شود. درک بهره‌برداری از Volumeهای محلی برای دسترسی سریع‌تر به داده‌ها و ذخیره‌سازی پایدار جهت به حداقل رساندن دانلودهای غیرضروری از مخازنی مانند Hugging Face.
استقرار مدل‌های AI با عملکرد بالا: تسلط بر استقرار مدل‌های یادگیری ماشین با استفاده از فریم‌ورک vLLM، با پشتیبانی از هزاران درخواست استنتاج موازی برای برنامه‌های سطح صنعتی. یادگیری طراحی معماری ماژولار با سرویس‌های مجزا برای دانلود مدل و وظایف استنتاج، مطابق با متدهای مدرن طراحی نرم‌افزار.
توسعه اپلیکیشن چت هوش مصنوعی مکالمه‌محور: تبدیل دانش تئوری به محصول ملموس از طریق توسعه اسکریپت پایتون برای مدیریت تعاملات چت با مدل‌های زبانی مستقر شده. ادغام و احراز هویت با استفاده از کلاینت API OpenAI برای تجربه اجرای دیالوگ‌های چت بلادرنگ.
ساخت APIهای قدرتمند با FastAPI و vLLM: ایجاد و ادغام APIها با استفاده از FastAPI و vLLM برای سرودهی بهینه مدل‌های AI و تضمین تعاملات سازگار با OpenAI در زیرساخت کانتینری. پیاده‌سازی نقاط اتصال REST API برای سرویس‌های استنتاج جهت تسهیل تعامل با برنامه‌های خارجی از طریق رابط‌های استاندارد.
مدیریت بهینه منابع و مدل: به‌کارگیری تکنیک‌های همزمانی و همگام‌سازی برای مدیریت داده‌های مدل بین سرویس‌ها، جهت تضمین در دسترس بودن بالا بدون ترافیک شبکه بیش از حد. بهینه‌سازی استفاده از GPU و سایر منابع سخت‌افزاری برای مدیریت تعداد بالای درخواست‌های استنتاج موازی.
طراحی سرویس مقیاس‌پذیر و امن: طراحی سیستم‌های مقیاس‌پذیری که اجازه مقداردهی اولیه سریع و گسترش بهینه را از طریق استفاده استراتژیک از وزن‌های مدل و ذخیره‌سازی محلی می‌دهند. ایمن‌سازی برنامه با استفاده از پروتکل‌های احراز هویت پیشرفته، از جمله کنترل دسترسی مبتنی بر توکن برای محدود کردن استفاده از API به کاربران مجاز.

همچنین این دوره یک کاوش عملی در استقرار و مقیاس‌بندی مدل‌های یادگیری ماشین تنها با چند خط دکوراتور پایتون، با استفاده از پلتفرم بدون سرور (Serverless) Modal و رویکرد Infrastructure as a Code (زیرساخت به عنوان کد) ارائه می‌دهد.

آشنایی با Modal: شروع با بررسی کلی مدیریت زیرساخت نوآورانه Modal که مقیاس‌بندی و استقرار را با خودکارسازی فرآیندهایی که به طور سنتی توسط پلتفرم‌هایی مانند AWS مدیریت می‌شدند، ساده می‌کند. کشف مزایای معماری بدون سرور و استراتژی‌های بهینه‌سازی هزینه.
راه‌اندازی محیط و اجرای اسکریپت: یاد بگیرید چگونه محیط محلی خود را به Modal متصل کنید، وابستگی‌ها (Dependencies) را مدیریت کنید و اسکریپت‌های پایتون را در هر دو محیط محلی و راه دور اجرا نمایید. درک رویکرد منحصر به فرد Modal در استقرار توابع بدون سرور و تفاوت‌های اجرای محلی و راه دور.
اپلیکیشن‌های موقت (Ephemeral) و مستقر شده: انتقال از اجرای برنامه‌های موقت در محیط محلی به استقرار آن‌ها برای اجرای راه دور. بررسی چرخه حیات برنامه‌های Modal، مقداردهی اولیه تنبل (Lazy Initialization) و مدیریت کانتینر، با تمرکز بر استراتژی‌های استقرار مقرون‌به‌صرفه برای بارهای کاری با عملکرد بالا.
تعریف زیرساخت و ادغام API: عمیق شدن در پیکربندی زیرساخت با استفاده از دکوراتورهای Modal، مدیریت عملیات مشابه Docker و تبدیل توابع پایتون به سرویس‌های قابل دسترس در وب با استفاده از FastAPI یکپارچه در Modal. یادگیری مدیریت کانتینر و ملاحظات عملکردی برای اجرای بهینه.
تکنیک‌های پیشرفته استقرار: بهره‌گیری از کلاس‌ها و Lifecycle Hooks برای مدیریت بهینه منابع، حفظ وضعیت برنامه در طول درخواست‌ها و افزایش عمر کانتینر. کسب بینش در مورد استقرار مدل‌های یادگیری ماشین از Hugging Face و ادغام مدل‌های زبانی بزرگ در برنامه‌های شما.
احراز هویت و پیکربندی محیط: تسلط بر فرآیند مدیریت Secrets برای احراز هویت، پیکربندی منابع GPU و راه‌اندازی محیط‌های کانتینری. درک اهمیت آماده نگه داشتن کانتینرها و مدل‌ها برای درخواست‌های استنتاج سریع.
گردش‌کار کامل استقرار: تجربه یک گردش‌کار کامل برای استقرار یک مدل یادگیری ماشین به عنوان یک سرویس وب. از راه‌اندازی تا تضمین در دسترس بودن سرویس با Cron Jobs، مشاهده بهترین روش‌ها در مدیریت چرخه حیات کانتینر و اتوماسیون DevOps.

سرفصل ها و درس ها

Basic Building Blocks: Building up Modal Platform Understanding

Course Repository
Start Strong with Modal: Environment, Installation, and API Setup
Basics of Python Scripts in Modal: From Local Testing to Remote Deployment
Ephemeral Apps in Modal: Deployment, Invocation, and Lifecycle Management
Deployment Basics: Setting Up Infrastructure and Exploring Local vs. Remote Runs
Building Web APIs with Modal: FastAPI Integration and REST Endpoint Deployment
Class-Based Deployment: Lifecycle Hooks, Resources and Dynamic Management

Practical Example with Weights Volume Mapping in a Real World Application

Configuring Modal for AI: Secrets, Authentication and Environment Setup
Infrastructure as Code for LLM Deployment: Container Setup, GPUs, and APIs
Efficient Deployment and Runtime Management: Full Workflow, Containers Cron Jobs
Model Deployment Best Practices: Saving and Loading Models Using Modal Volumes
The Role of Volume Mapping in Application Containers
Preparation for Production Deployment

vLLM Inferencing Endpoint with Chatbot, Volumes and Bot Memory App Example

How to map storage volumes to efficiently manage model weghts
Understanding VLLM Framework and Volume Management
How to integrate APIs using FastAPI and vLLM for serving machine learning model
Creating a FastAPI application and defining API routes
Utilizing VLLM for efficient model loading and weight management
Conducting chat sessions through API interactions to test model responses in rea
Developing a local Chat App to interface with a cloud-deployed language model