آموزش ساخت اپلیکیشن‌های هوش مصنوعی مولد چندوجهی (Multimodal Generative AI) - آخرین آپدیت

دانلود Build Multimodal Generative AI Applications

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: آیا آماده‌اید تا مهارت‌های خود را در زمینه هوش مصنوعی مولد (GenAI) ارتقا دهید؟ به دنیای هیجان‌انگیز هوش مصنوعی چندوجهی وارد شوید؛ جایی که زبان، تصاویر و گفتار برای ساخت اپلیکیشن‌های هوشمندتر و تعاملی‌تر با هم ترکیب می‌شوند. در این دوره عملی، شما یاد می‌گیرید چگونه سیستم‌هایی بسازید که در چندین مودالیته عمل می‌کنند؛ از خلق داستان‌سازهای مبتنی بر هوش مصنوعی و دستیاران جلسات گرفته تا توسعه ابزارهای توصیف تصویر و اپلیکیشن‌های تولید ویدیو. شما با ابزارهای واقعی و پیشرو مانند IBM Granite، مدل‌های OpenAI شامل Whisper، Sora و DALL-E، مدل Llama از Meta، Mixtral از Mistral و همچنین Gradio تجربه کسب خواهید کرد. علاوه بر این، سیستم‌های جستجوی چندوجهی، پاسخ‌دهی به سوالات و سیستم‌های بازیابی (Retrieval) را که متن، گفتار و داده‌های بصری را ترکیب می‌کنند، بررسی خواهید کرد. در پایان این دوره، شما قادر خواهید بود با استفاده از پایتون و فریم‌ورک‌هایی مانند Flask و Gradio، راهکارهای کامل (Full-stack) هوش مصنوعی چندوجهی را طراحی و پیاده‌سازی کنید. اگر به دنبال کسب مهارت‌های پرتقاضا برای ساخت نسل بعدی اپلیکیشن‌های هوش مصنوعی هستید، همین امروز ثبت‌نام کنید و مسیر شغلی خود را در دنیای AI متحول کنید!

سرفصل ها و درس ها

مبانی هوش مصنوعی چندوجهی Foundations of Multimodal AI

ویدیو: معرفی دوره Video: Course Introduction
مرور گواهینامه حرفه‌ای RAG و هوش مصنوعی عامل‌محور (Agentic AI) RAG and Agentic AI Professional Certificate Overview
آشنایی با هوش مصنوعی چندوجهی Introduction to Multimodal AI
تکنولوژی‌های تبدیل متن به گفتار (TTS) Text-to-Speech Technologies
تکنولوژی‌های تبدیل گفتار به متن (STT) Speech-to-Text Technologies

یکپارچه‌سازی مودالیته‌های بصری و ویدئویی Integrating Visual and Video Modalities

درک توصیف تصویر با استفاده از Llama متا Understanding Image Captioning with Meta's Llama
دمو: تولید ویدیو از متن با Sora اوپن‌ای‌آی Demo: Text-to-Video Generation with OpenAI's Sora

اپلیکیشن‌های پیشرفته چندوجهی Advanced Multimodal Applications

مقدمه‌ای بر تولید تقویت‌شده با بازیابی چندوجهی (MM RAG) Introduction to Multimodal Retrieval-Augmented Generation (MM-RAG)
چت‌بات‌های چندوجهی و سیستم‌های پرسش و پاسخ (QA) Multimodal Chatbots and QA Systems
جمع‌بندی نهایی دوره Course Wrap-up