لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش تسلط بر هوش مصنوعی صوت: از ASR تا هوش مصنوعی احساسات و کلونینگ صدا
- آخرین آپدیت
دانلود Mastering Voice AI : From ASR to Emotion AI to Voice Cloning
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
در این دوره، مدلهای پیشرفته زبان گفتار (SpeechLMs) را فرا بگیرید و اپلیکیشنهای نسل جدید هوش مصنوعی صوت را با قابلیتهای گفتار End-to-End بسازید.
توسعه مدلهای زبان گفتار End-to-End با استفاده از پایتون و معماریهای ترنسفورمر.
تسلط بر استخراج ویژگیهای صوتی و توکنسازی برای شناسایی و سنتز گفتار.
ساخت هوش مصنوعی برای تشخیص احساسات و شخصیسازی گفتار با کاربردهای دنیای واقعی.
ارزیابی SpeechLMs با معیارهایی مانند WER و بررسی روشهای طراحی اخلاقی در هوش مصنوعی.
پیشنیازها: هیچ تجربه قبلی در زمینه هوش مصنوعی صوت نیاز نیست – این دوره برای مبتدیان با راهنماییهای عملی طراحی شده است!
یک کامپیوتر با پایتون 3.7 به بالا، TensorFlow/PyTorch و کتابخانههای صوتی (مانند Librosa).
برنامهنویسی پایه پایتون (آشنایی با حلقهها، توابع و کتابخانههایی مانند NumPy).
درک خود از هوش مصنوعی صوت را با این دوره جامع در مورد مدلهای زبان گفتار (SLMs) تغییر دهید - فناوری انقلابی که خط لولههای سنتی پردازش گفتار را با راهکارهای قدرتمند End-to-End جایگزین میکند.
آنچه در این دوره یاد میگیرید:
مدلهای زبان گفتار (Speech Language Models) مرز جدیدی در هوش مصنوعی هستند و از محدودیتهای خط لولههای سنتی (ASR → LLM → TTS) فراتر میروند. این دوره شما را از مفاهیم بنیادی تا کاربردهای پیشرفته میبرد و همه موارد، از توکنسازی گفتار و معماریهای ترنسفورمر تا هوش مصنوعی احساسات و تعاملات صوتی بلادرنگ را پوشش میدهد.
چرا این دوره اهمیت دارد:
پردازش سنتی گفتار از مشکلاتی مانند از دست رفتن اطلاعات، تاخیر بالا و تجمع خطا در مراحل مختلف رنج میبرد. SLMها با پردازش مستقیم گفتار، نه تنها کلمات، بلکه احساسات، هویت گوینده و نشانههای غیرزبانی (paralinguistic) را که ارتباطات انسانی را غنی و ظریف میکند، ثبت میکنند.
ویژگیهای منحصر به فرد این دوره:
یادگیری عملی: کار با مدلهای پیشرو مانند YourTTS، Whisper و HuBERT
پوشش کامل خط لوله: از صوت خام تا استقرار اپلیکیشنها
کاربردهای واقعی: ساخت سیستمهای ASR، کلونینگ صدا، تشخیص احساسات و ایجنتهای صوتی تعاملی
آخرین پژوهشها: پوشش پیشرفتهای لبه تکنولوژی در حوزه در حال تکامل SLM
پیادهسازی کاربردی: یادگیری متدهای آموزش، معیارهای ارزیابی و استراتژیهای استقرار
تکنولوژیهای کلیدی که با آنها کار خواهید کرد:
توکنسازهای گفتار (EnCodec, HuBERT, Wav2Vec 2.0)
معماریهای ترنسفورمر تطبیقیافته برای گفتار (Whisper, Conformer و غیره)
تکنولوژیهای ووکر/بککد (Tacotron, Hi-Fi GAN, MelGAN و غیره)
رویکردهای آموزش چندوجهی (CTC, UCTC و غیره)
تنظیم دقیق پارامتر-بهینه (LoRA)
این دوره برای چه کسانی مناسب است:
مهندسان AI/ML که میخواهند در تکنولوژی گفتار تخصص پیدا کنند
دانشجویان یا افرادی که در حال تغییر مسیر شغلی هستند
پژوهشگرانی که در حال بررسی نسل بعدی هوش مصنوعی صوت هستند
توسعهدهندگانی که اپلیکیشنهای Voice-First میسازند
هر کسی که کنجکاو است بداند دستیارهای صوتی مدرن واقعاً چگونه کار میکنند
نتیجه دوره:
در پایان، شما مهارتهای لازم برای طراحی، آموزش و استقرار مدلهای زبان گفتار را برای کاربردهای متنوع - از شناسایی ساده گفتار تا ایجنتهای صوتی پیشرفته و حساس به احساسات - خواهید داشت. شما هم مبانی تئوری و هم جزئیات عملی مورد نیاز برای ایفای نقش در این حوزه هیجانانگیز را درک خواهید کرد.
به انقلاب هوش مصنوعی صوت بپیوندید و بر تکنولوژیای تسلط یابید که تعامل انسان و کامپیوتر را بازتعریف میکند!
سرفصل ها و درس ها
مقدمه
Introduction
مقدمه
Introduction
ماژول ۱: مقدمهای بر پردازش زبان گفتار و ظهور SpeechLM
Module 1: Introduction to Speech Language Processing and the Emergence of Speech
مقدمه ماژول ۱: معرفی پردازش زبان گفتار و ظهور مدل SpeechLM
Introduction to Module 1 -Intro to Speech LP and the Emergence of SpeechLM Model
1.1 پردازش سنتی گفتار: ۲. NLU، تبدیل متن به گفتار (TTS) و یکپارچهسازی خط لوله
1.1 Traditional Speech - 2 NLU, Text-to-Speech (TTS),Pipeline Integration
نحوه دانلود Anaconda و ایجاد محیط مجازی
How to download Anaconda and create environment
1.1 مثال کدنویسی و بحث: ساخت یک ایجنت گفتگوی مجهز به قابلیت صوت
1.1 Coding Eg & Ex. Discussion - Building a Speech-Enabled Conversational Agent
کوییز: بررسی کلی خط لوله سنتی
Quiz - 1.1 Overview of Traditional Pipeline
1.2 محدودیتهای خط لوله سنتی: ۱. از دست رفتن اطلاعات و تاخیر قابل توجه
1.2 Limitations Traditional Pipeline - 1 Information Loss, Significant Latency
1.2 محدودیتهای خط لوله سنتی: ۲. انتشار خطا و همافزایی محدودیتها
1.2 Limitations Traditional - 2 Error Propagation, Synergy of Limitations
1.2 بحث مثال کدنویسی: شبیهسازی خط لوله گفتار با محدودیتها
1.2 Coding Example Discussion - Speech Pipeline with Simulated Limitations
کوییز: محدودیتهای خط لوله سنتی
Quiz - 1.2 Limitations of Traditional Pipeline
1.3 مقدمهای بر مدلهای زبان گفتار (SpeechLMs): ۱. مدلهای SpeechLM چیستند؟
1.3 Introduction to Speech Language Models (SpeechLMs) - 1 What are SpeechLMs?
1.3 مقدمهای بر SpeechLMs: ۲. نحوه عملکرد و ثبت اطلاعات غنی
1.3 Introduction to SpeechLMs - 2 How do SpeechLMs work, capture Rich Info
مثال کد و بحث: توکنسازی و بازسازی صوتی + پهنای باند چندگانه
Coding Eg & Ex Disc. 1.3- Audio Tokenization and Reconstruction + Multi-Bandwidt
کوییز: مقدمهای بر مدلهای زبان گفتار (SpeechLMs)
Quiz - 1.3 Introduction to Speech Language Models (SpeechLMs)
1.4 مزایای SpeechLMs: ۱. کاهش تاخیر و اطلاعات غیرزبانی
1.4 - Advantages SpeechLMs - 1 Reduced Latency, Paralinguistic Information
1.4 مزایای SpeechLMs: ۲. قابلیت کاربرد در زبانهای کممنبع (LRL)
1.4 - Advantages SpeechLMs - 2 Applicability to Low Resource Languages (LRL)
مثال کد: شناسایی گفتار و احساسات با SpeechLM (مدل wav2vec2)
Coding Eg & Ex 1.4 - Speech & Emotion Recognition with SpeechLM - wav2vec2
کوییز: مزایای مدلهای زبان گفتار (SpeechLMs)
Quiz - 1.4 Advantages of Speech Language Models (SpeechLMs)
1.5 مقایسه SpeechLM در مقابل TextLM: ۱. مودالیته ورودی، خروجی و معماری
1.5 SpeechLM vs TextLM - 1 Input Modality ,Output Modality, Architecture
1.5 مقایسه SpeechLM در مقابل TextLM: ۲. نمایشهای داخلی، دادههای آموزشی و کاربردها
1.5 SpeechLM vs TextLM - 2 Internal Representations, Training Data, Applicatio
بحث مثال کدنویسی: مقایسه مودالیته TextLM در مقابل SpeechLM
Coding Example Discussion 1.5 - TextLM vs. SpeechLM Modality Comparison
کوییز: تضاد SpeechLM با مدلهای زبانی مبتنی بر متن (TextLMs)
Quiz - 1.5 Contrast of SpeechLM with Text-based Language Models (TextLMs)
1.6 کاربردهای SpeechLMs: ۱. مقدمه و وظایف معنایی (تمرکز بر محتوا)
1.6 Applications SpeechLMs - 1 Introduction, Semantic Tasks (Focus on Content)
1.6 کاربردهای SpeechLMs: ۲. وظایف مرتبط با گوینده و وظایف غیرزبانی
1.6 Applications SpeechLMs - 2 Speaker-Related Tasks, Paralinguistic Tasks
بحث مثال کدنویسی: دستیار صوتی حساس به احساسات
Coding Example Discussion 1.6 - Emotion-Aware Speech Assistant
کوییز: کاربردهای مدلهای زبان گفتار (SpeechLMs) - بخش ۲
Quiz - 1.6 Applications of Speech Language Models (SpeechLMs) - Part 2
ماژول ۲: مبانی گفتار و زبان برای مدلهای SpeechLM
Module 2: Fundamentals of Speech and Language for SpeechLMs
مقدمه ماژول ۲: مبانی گفتار و زبان برای مدلهای SpeechLM
Intro to Module 2 - Fundamentals of Speech and Language for SpeechLMs
2.1 مبانی آکوستیک گفتار: ۱. امواج صوتی، شکل موج، فرکانس و طیف
2.1 Basics of Speech Acoustics - 1 Sound Waves,Waveform , Frequency,Spectrum
2.1 مبانی آکوستیک گفتار: ۲. طیفنگارها، MFCCها و کاربرد در یادگیری عمیق
2.1 Basics of Speech - 2 Spectrograms, MFCCs, Applications in Deep Learning
مثال کد: تحلیل و ترنسکریپشن گفتار + استخراج ویژگیهای صوتی
Code Eg & Ex 2.1 - Speech Analysis & Transcription + Speech Feature Extraction
کوییز: مبانی آکوستیک گفتار
Quiz 2.1 Basics of Speech Acoustics
2.2 مدل منبع-فیلتر تولید گفتار: ۱. منبع، ۲. فیلتر
2.2 The Source-Filter Model of Speech Production - 1.The Source ,2.The Filter
2.2 مدل منبع-فیلتر: ۲. خروجی گفتار، مفاهیم کلیدی و ارتباطات
2.2 The Source-Filter Model - 2 Speech Output, Key Concepts of Speech,Relevance
کوییز: مدل منبع-فیلتر تولید گفتار
Quiz 2.2 The Source-Filter Model of Speech Production
2.3 آواشناسی و واجشناسی در گفتار: ۱. فونها، واجها و آلوفونها
2.3 Phonetics and Phonology in Speech - 1 Phones, Phonemes, and Allophones
2.3 آواشناسی و واجشناسی: ۲. نگاشت صداها به واجها و ویژگیهای آوایی
2.3 Phonetics and Phonology - 2 Mapping Sounds to Phonemes and Phonetic Features
بحث مثال کد: سیستم تحلیل و شناسایی آوایی
Code Eg Discussion - 2.3 Phonetic Recognition and Analysis System
کوییز: آواشناسی و واجشناسی در گفتار
Quiz 2.3 - Phonetics and Phonology in Speech
2.4 استخراج ویژگیهای صوتی: ۲. شکل موجهای خام و نمایشهای صوتی آموخته شده
2.4 Audio Feature Extraction - 2 Raw Waveforms and Learned Audio Representations
بحث مثال کد: استحکام در برابر نویز در تحلیل ویژگیهای گفتار
Coding Eg Discussion 2.4 - Noise Robustness in Speech Feature Analysis
2.5 نمایش متقابل مودالیته در SpeechLMs: ۱. نمایش صوتی و ۲. نمایش متنی
2.5 Cross-Modal Representation SpeechLMs - 1 1.Audio Representation 2. Text Rep
2.5 نمایش متقابل: ۲. تراز مودالیتهها، ارتباط با SpeechLMs و پیادهسازی
2.5 Cross-Modal - 2 3. Cross-Modal Alignment, Relevance to SpeechLMs, Implement
مثال کد: چارچوب تحلیل و بصریسازی تراز مودال (Cross Modal Alignment)
Code Eg & Ex 2.5 - Cross-Modal Alignment Visualization & Analysis Framework
کوییز: نمایشهای متقابل مودالیته برای SpeechLMs
Quiz 2.5 - Cross-Modal Representations for SpeechLMs
ماژول ۳: معماریها و اجزای کلیدی SpeechLM
Module 3: Architectures and Key Components of SpeechLMs
مقدمه ماژول ۳: معماریها و اجزای کلیدی SpeechLMs
Introduction to Module 3 - Architectures and Key Components of SpeechLMs
مثال کد: مقایسه متدهای توکنسازی گفتار + توکنسازی با واژگان بهبودیافته
Code Eg & Ex - Speech Tokenization(ST) Method Comparison + ST with Enhancd Vocab
مثال کد: ووکر عصبی برای سنتز صوت + الگوریتم Griffin Lim
Code Eg & Ex 3.4 - Neural Vocoder for Audio Synthesis + Griffin-Lim Algorithm
کوییز: ووکرها در SpeechLMs
Quiz 3.4 Vocoders in SpeechLMs
ماژول ۴: متدهای آموزش برای مدلهای SpeechLM
Module 4: Training Methodologies for SpeechLMs
مقدمه ماژول ۴: متدهای آموزش برای SpeechLMs
Introduction to Module 4 - Training Methodologies for SpeechLMs
4.1 مراحل آموزش SpeechLMs: مقدمه، ۱. خط لوله آموزش، ۱. پیش-آموزش (Pre-Training)
4.1 Training Stages for SpeechLMs - Intro., 1 Training Pipeline, 1. Pre-Training
کدها: استقرار SpeechLM در دنیای واقعی با تکنیکهای تراز پسین
Codes 4.4 - Real-World SpeechLM Deployment with Post-Alignment Techniques
کوییز: تکنیکهای تراز پسین برای مدلهای زبان گفتار (SpeechLMs)
4.4 Quiz Post-Alignment Techniques for Speech Language Models (SpeechLMs)
ماژول ۵: قابلیتها و کاربردهای تفصیلی SpeechLM
Module 5: Capabilities and Applications of SpeechLMs in Detail
مقدمه ماژول ۵: قابلیتها و کاربردهای تفصیلی SpeechLMs
Introduction to Module 5 - Capabilities and Applications of SpeechLMs in Detail
5.1 قابلیتها و کاربردهای SpeechLM: وظایف مرتبط با معنا، ۱. ASR End-to-End
5.1 Capabilities & Applications of SpeechLM: Semantic-Related Tasks - 1 E2E ASR
کدها: Whisper ASR با برچسب زمانی در سطح کلمه + کلونینگ صدای Zero-Shot با YourTTS
Codes 5.1 - Whisper ASR Word-Level Timestamp + Zero-Shot Voice Cloning YourTTS
کوییز: قابلیتها و کاربردهای SpeechLMs: وظایف مرتبط با معنا
Quiz 5.1 Capabilities and Applications of SpeechLMs: Semantic-Related Tasks
کدها: ASR بلادرنگ با VAD و مدیریت وقفهها + پیشبینی نوبت گفتگو در مکالمه
Codes 5.4 -RT ASR w/ VAD & Interp. Handling + Turn-Taking Predn. in Conversation
کوییز: تعاملات صوتی پیشرفته با SpeechLMs
Quiz 5.4 5.4 Advanced Voice Interaction with SpeechLMs
ماژول ۶: معیارهای ارزیابی و بنچمارک مدلهای SpeechLM
Module 6: Evaluation Metrics and Benchmarking of SpeechLMs
مقدمه ماژول ۶: معیارهای ارزیابی و بنچمارک مدلهای SpeechLMs
Introduction to Module 6 - Evaluation Metrics and Benchmarking of SpeechLMs
6.1 معیارهای ارزیابی برای SpeechLMs: ۱. مقدمه، نرخ خطای کلمه (WER)
6.1 Evaluation metrics for SpeechLMs - 1 Introduction, Word Error Rate (WER)
6.1 ارزیابی: ۲. شباهت گوینده (SS)، ۳. طبیعی بودن گفتار (MoS) و بنچمارکگذاری
6.1 Eval.- 2 2. Speaker Similarity(SS),3. Speech Naturalness(MoS), Benchmarking
کدها: ارزیابی جامع ASR + چارچوب ارزیابی کیفیت TTS
Codes 6.1 - Comprehensive ASR Evaluation + TTS Quality Evaluation Framework
کوییز: معیارهای رایج ارزیابی برای SpeechLMs
Quiz 6.1 Common Evaluation metrics for SpeechLMs
6.2 ارزیابی و بنچمارک SpeechLMs: ۱. ASR و ۲. TTS
6.2 Evaluating & Benchmarking SpeechLMs - 1 1.ASR 2.TTS
کدها: ASR با شناسایی احساسات + ارزیابی TTS/VC با تحلیل ویژگیهای آکوستیک
Codes 6.2 - ASR w/ Emotin Recognition + TTS/VC Eval w/ Acoustic Feature Analys
کوییز: ارزیابی و بنچمارک مدلهای زبان گفتار (SpeechLMs)
Quiz 6.2 Evaluating and Benchmarking Speech Language Models (SpeechLMs)
6.3 دیتاستهای بنچمارک برای SpeechLMs: ۱. اهمیت دیتاستهای بنچمارک
6.3 Benchmarking Datasets fSpeechLMs - 1 The Importance of Benchmarking Dataset
6.3 بنچمارک: ۲. دیتاستهای رایج بر اساس قابلیت و نحوه استفاده از آنها
6.3 Bench. - 2 Commonly Used Benchmarking Datasets by Capability,Using Datasets
کدها: ASR سفارشی + چارچوب بنچمارک TTS امن با SpeechT5 و Pyannote
Codes 6.3 - Custom ASR + Secure TTS Benchmarkng Framewk w/ SpeechT5 and Pyannote
کوییز: دیتاستهای بنچمارک برای مدلهای زبان گفتار (SpeechLMs)
Quiz 6.3 Benchmarking Datasets for Speech Language Models (SpeechLMs)
6.4 مقایسه SpeechLMs با سیستمهای سنتی ASR، TTS و ترجمه: ۱. مقدمه
6.4 Comparing SpeechLMs w/ Traditional ASR, TTS, & Translation System - 1 Intro
کدها: آموزش شناسایی گفتار End-to-End + آموزش Lite Tacotron TTS
Codes 7.2 - End-to-End Speech Recognition Training + Lite Tacotron TTS Training
کوییز: آموزش End-to-End اجزای SpeechLM
Quiz 7.2 End-to-End Training of SpeechLM Components
7.3 مقیاسبندی SpeechLMs برای اندازه و دادههای بزرگتر: ۱. اثر مقیاسبندی سهگانه
7.3 Scaling SpeechLMs to Larger Sizes and Datasets - 1 Triple Scaling Effect
7.3 مقیاسبندی: ۲. مکانیسمهای مقیاسبندی دادهها، سهگانه مقیاسبندی SpeechLM و جمعبندی
7.3 Scaling - 2 Data Scaling Mechanics, The SpeechLM Scaling Triad, Summary
کدها: آموزش مقیاسپذیر شناسایی گفتار + کشینگ دیتاست و Bucketing پویا
Codes 7.3 - Scalable Speech Recog Training + Dataset caching, dynamic Bucketing
کوییز: مقیاسبندی مدلهای زبان گفتار برای اندازه و دادههای بزرگتر
Quiz 7.3 Scaling Speech Language Models to Larger Sizes and Datasets
7.4 بهبود مدلسازی اطلاعات غیرزبانی در SpeechLMs: ۱. چالشها
7.4 Improving Modeling Paralinguistic Information in SpeechLMs - 1 Challenges
کدها: شناسایی احساسات با مدل HuBERT + سنتز با کنترل آهنگ صدای FastPitch
Codes 7.2 - Emotion Recog w/ HuBERT Model + Prosody-Control Synthesis FastPitch
کوییز: بهبود مدلسازی اطلاعات غیرزبانی در SpeechLMs
Quiz 7.4 Improving Modeling of Paralinguistic Information in SpeechLMs
7.5 مدیریت زبانهای کممنبع: ۱. یادگیری انتقالی و یادگیری خود-نظارتی
7.5 Handling Low-Resource Languages - 1 Transfer Learning ,Self-Supervised
7.5 مدیریت: ۲. یادگیری نیمهنظارتی و بهرهبرداری از زبانهای مرتبط
7.5 Handling - 2 Semi-Supervised Learning, Leveraging Related Languages
کدها: تنظیم دقیق XLS-R برای ASR + طبقهبندی احساسات با SpecAugment
Codes 7.5 - Fine-Tuning XLS-R for ASR + Emotion Classification with SpecAugment
کوییز: مدیریت زبانهای کممنبع برای مدلهای زبان گفتار
Quiz 7.5 Handling Low-Resource Languages for Speech Language Models
7.6 توسعه SpeechLMهای بلادرنگ و دوطرفه (Duplex): ۱. معماری Duplex بلادرنگ
7.6 Developing Real-Time and Duplex SpeechLMs - 1 Real-Time Duplex Architecture
7.6 توسعه: ۲. معماریهای استریمینگ و بهینهسازی مدل، VAD و Barge-In
7.6 Developing - 2 Streaming Architectures & Model Optimization, VAD, Barge-In
کدها: ASR استریمینگ با Causal Transformer تاخیر کم + سیستم VAD برای Barge-In
Codes 7.6 Streaming ASR w/ Causal Transformer Low-Latency + VAD for Barge-In Sys
کوییز: توسعه SpeechLMهای بلادرنگ و دوطرفه
Quiz 7.6 Developing Real-Time and Duplex SpeechLMs
7.7 پرداختن به مسائل امنیتی و اخلاقی در SpeechLMs: ۱. ریسکهای امنیتی SpeechLM
7.7 Addressing Safety & Ethical Concerns in SpeechLMs - 1 SpeechLM Safety Risks
7.7 امنیت: ۲. لایه داده و مدل، لایه امنیت و حریم خصوصی، تضمین پاسخگویی
7.7 Address - 2 Data & Model Layer, Security & Privacy Layer, Ensuring Accountab
کدها: ارزیابی سوگیری ASR در لهجهها + نظارت بر TTS با فیلتر سمیت (Toxicity)
Codes 7.7 Bias Eval ASR Accent Fairness + TTS Moderation with Toxicity Filterng
کوییز: پرداختن به مسائل امنیتی و اخلاقی در SpeechLMs
Quiz 7.7 Addressing Safety and Ethical Concerns in SpeechLMs
نمایش نظرات