دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش تسلط بر هوش مصنوعی صوت: از ASR تا هوش مصنوعی احساسات و کلونینگ صدا - آخرین آپدیت

دانلود Mastering Voice AI : From ASR to Emotion AI to Voice Cloning

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: در این دوره، مدل‌های پیشرفته زبان گفتار (SpeechLMs) را فرا بگیرید و اپلیکیشن‌های نسل جدید هوش مصنوعی صوت را با قابلیت‌های گفتار End-to-End بسازید. توسعه مدل‌های زبان گفتار End-to-End با استفاده از پایتون و معماری‌های ترنسفورمر. تسلط بر استخراج ویژگی‌های صوتی و توکن‌سازی برای شناسایی و سنتز گفتار. ساخت هوش مصنوعی برای تشخیص احساسات و شخصی‌سازی گفتار با کاربردهای دنیای واقعی. ارزیابی SpeechLMs با معیارهایی مانند WER و بررسی روش‌های طراحی اخلاقی در هوش مصنوعی. پیش‌نیازها: هیچ تجربه قبلی در زمینه هوش مصنوعی صوت نیاز نیست – این دوره برای مبتدیان با راهنمایی‌های عملی طراحی شده است! یک کامپیوتر با پایتون 3.7 به بالا، TensorFlow/PyTorch و کتابخانه‌های صوتی (مانند Librosa). برنامه‌نویسی پایه پایتون (آشنایی با حلقه‌ها، توابع و کتابخانه‌هایی مانند NumPy).

درک خود از هوش مصنوعی صوت را با این دوره جامع در مورد مدل‌های زبان گفتار (SLMs) تغییر دهید - فناوری انقلابی که خط لوله‌های سنتی پردازش گفتار را با راهکارهای قدرتمند End-to-End جایگزین می‌کند.

آنچه در این دوره یاد می‌گیرید:

مدل‌های زبان گفتار (Speech Language Models) مرز جدیدی در هوش مصنوعی هستند و از محدودیت‌های خط لوله‌های سنتی (ASR → LLM → TTS) فراتر می‌روند. این دوره شما را از مفاهیم بنیادی تا کاربردهای پیشرفته می‌برد و همه موارد، از توکن‌سازی گفتار و معماری‌های ترنسفورمر تا هوش مصنوعی احساسات و تعاملات صوتی بلادرنگ را پوشش می‌دهد.

چرا این دوره اهمیت دارد:

پردازش سنتی گفتار از مشکلاتی مانند از دست رفتن اطلاعات، تاخیر بالا و تجمع خطا در مراحل مختلف رنج می‌برد. SLMها با پردازش مستقیم گفتار، نه تنها کلمات، بلکه احساسات، هویت گوینده و نشانه‌های غیرزبانی (paralinguistic) را که ارتباطات انسانی را غنی و ظریف می‌کند، ثبت می‌کنند.

ویژگی‌های منحصر به فرد این دوره:

یادگیری عملی: کار با مدل‌های پیشرو مانند YourTTS، Whisper و HuBERT
پوشش کامل خط لوله: از صوت خام تا استقرار اپلیکیشن‌ها
کاربردهای واقعی: ساخت سیستم‌های ASR، کلونینگ صدا، تشخیص احساسات و ایجنت‌های صوتی تعاملی
آخرین پژوهش‌ها: پوشش پیشرفت‌های لبه تکنولوژی در حوزه در حال تکامل SLM
پیاده‌سازی کاربردی: یادگیری متدهای آموزش، معیارهای ارزیابی و استراتژی‌های استقرار

تکنولوژی‌های کلیدی که با آن‌ها کار خواهید کرد:

توکن‌سازهای گفتار (EnCodec, HuBERT, Wav2Vec 2.0)
معماری‌های ترنسفورمر تطبیق‌یافته برای گفتار (Whisper, Conformer و غیره)
تکنولوژی‌های ووکر/بک‌کد (Tacotron, Hi-Fi GAN, MelGAN و غیره)
رویکردهای آموزش چندوجهی (CTC, UCTC و غیره)
تنظیم دقیق پارامتر-بهینه (LoRA)

این دوره برای چه کسانی مناسب است:

مهندسان AI/ML که می‌خواهند در تکنولوژی گفتار تخصص پیدا کنند
دانشجویان یا افرادی که در حال تغییر مسیر شغلی هستند
پژوهشگرانی که در حال بررسی نسل بعدی هوش مصنوعی صوت هستند
توسعه‌دهندگانی که اپلیکیشن‌های Voice-First می‌سازند
هر کسی که کنجکاو است بداند دستیارهای صوتی مدرن واقعاً چگونه کار می‌کنند

نتیجه دوره:

در پایان، شما مهارت‌های لازم برای طراحی، آموزش و استقرار مدل‌های زبان گفتار را برای کاربردهای متنوع - از شناسایی ساده گفتار تا ایجنت‌های صوتی پیشرفته و حساس به احساسات - خواهید داشت. شما هم مبانی تئوری و هم جزئیات عملی مورد نیاز برای ایفای نقش در این حوزه هیجان‌انگیز را درک خواهید کرد.

به انقلاب هوش مصنوعی صوت بپیوندید و بر تکنولوژی‌ای تسلط یابید که تعامل انسان و کامپیوتر را بازتعریف می‌کند!

سرفصل ها و درس ها

مقدمه Introduction

مقدمه Introduction

ماژول ۱: مقدمه‌ای بر پردازش زبان گفتار و ظهور SpeechLM Module 1: Introduction to Speech Language Processing and the Emergence of Speech

مقدمه ماژول ۱: معرفی پردازش زبان گفتار و ظهور مدل SpeechLM Introduction to Module 1 -Intro to Speech LP and the Emergence of SpeechLM Model
1.1 پردازش سنتی گفتار: ۱. شناسایی خودکار گفتار (ASR) 1.1 Traditional Speech Processing - 1 Automatic Speech Recognition (ASR)
1.1 پردازش سنتی گفتار: ۲. NLU، تبدیل متن به گفتار (TTS) و یکپارچه‌سازی خط لوله 1.1 Traditional Speech - 2 NLU, Text-to-Speech (TTS),Pipeline Integration
نحوه دانلود Anaconda و ایجاد محیط مجازی How to download Anaconda and create environment
1.1 مثال کدنویسی و بحث: ساخت یک ایجنت گفتگوی مجهز به قابلیت صوت 1.1 Coding Eg & Ex. Discussion - Building a Speech-Enabled Conversational Agent
کوییز: بررسی کلی خط لوله سنتی Quiz - 1.1 Overview of Traditional Pipeline
1.2 محدودیت‌های خط لوله سنتی: ۱. از دست رفتن اطلاعات و تاخیر قابل توجه 1.2 Limitations Traditional Pipeline - 1 Information Loss, Significant Latency
1.2 محدودیت‌های خط لوله سنتی: ۲. انتشار خطا و هم‌افزایی محدودیت‌ها 1.2 Limitations Traditional - 2 Error Propagation, Synergy of Limitations
1.2 بحث مثال کدنویسی: شبیه‌سازی خط لوله گفتار با محدودیت‌ها 1.2 Coding Example Discussion - Speech Pipeline with Simulated Limitations
کوییز: محدودیت‌های خط لوله سنتی Quiz - 1.2 Limitations of Traditional Pipeline
1.3 مقدمه‌ای بر مدل‌های زبان گفتار (SpeechLMs): ۱. مدل‌های SpeechLM چیستند؟ 1.3 Introduction to Speech Language Models (SpeechLMs) - 1 What are SpeechLMs?
1.3 مقدمه‌ای بر SpeechLMs: ۲. نحوه عملکرد و ثبت اطلاعات غنی 1.3 Introduction to SpeechLMs - 2 How do SpeechLMs work, capture Rich Info
مثال کد و بحث: توکن‌سازی و بازسازی صوتی + پهنای باند چندگانه Coding Eg & Ex Disc. 1.3- Audio Tokenization and Reconstruction + Multi-Bandwidt
کوییز: مقدمه‌ای بر مدل‌های زبان گفتار (SpeechLMs) Quiz - 1.3 Introduction to Speech Language Models (SpeechLMs)
1.4 مزایای SpeechLMs: ۱. کاهش تاخیر و اطلاعات غیرزبانی 1.4 - Advantages SpeechLMs - 1 Reduced Latency, Paralinguistic Information
1.4 مزایای SpeechLMs: ۲. قابلیت کاربرد در زبان‌های کم‌منبع (LRL) 1.4 - Advantages SpeechLMs - 2 Applicability to Low Resource Languages (LRL)
مثال کد: شناسایی گفتار و احساسات با SpeechLM (مدل wav2vec2) Coding Eg & Ex 1.4 - Speech & Emotion Recognition with SpeechLM - wav2vec2
کوییز: مزایای مدل‌های زبان گفتار (SpeechLMs) Quiz - 1.4 Advantages of Speech Language Models (SpeechLMs)
1.5 مقایسه SpeechLM در مقابل TextLM: ۱. مودالیته ورودی، خروجی و معماری 1.5 SpeechLM vs TextLM - 1 Input Modality ,Output Modality, Architecture
1.5 مقایسه SpeechLM در مقابل TextLM: ۲. نمایش‌های داخلی، داده‌های آموزشی و کاربردها 1.5 SpeechLM vs TextLM - 2 Internal Representations, Training Data, Applicatio
بحث مثال کدنویسی: مقایسه مودالیته TextLM در مقابل SpeechLM Coding Example Discussion 1.5 - TextLM vs. SpeechLM Modality Comparison
کوییز: تضاد SpeechLM با مدل‌های زبانی مبتنی بر متن (TextLMs) Quiz - 1.5 Contrast of SpeechLM with Text-based Language Models (TextLMs)
1.6 کاربردهای SpeechLMs: ۱. مقدمه و وظایف معنایی (تمرکز بر محتوا) 1.6 Applications SpeechLMs - 1 Introduction, Semantic Tasks (Focus on Content)
1.6 کاربردهای SpeechLMs: ۲. وظایف مرتبط با گوینده و وظایف غیرزبانی 1.6 Applications SpeechLMs - 2 Speaker-Related Tasks, Paralinguistic Tasks
بحث مثال کدنویسی: دستیار صوتی حساس به احساسات Coding Example Discussion 1.6 - Emotion-Aware Speech Assistant
کوییز: کاربردهای مدل‌های زبان گفتار (SpeechLMs) - بخش ۲ Quiz - 1.6 Applications of Speech Language Models (SpeechLMs) - Part 2

ماژول ۲: مبانی گفتار و زبان برای مدل‌های SpeechLM Module 2: Fundamentals of Speech and Language for SpeechLMs

مقدمه ماژول ۲: مبانی گفتار و زبان برای مدل‌های SpeechLM Intro to Module 2 - Fundamentals of Speech and Language for SpeechLMs
2.1 مبانی آکوستیک گفتار: ۱. امواج صوتی، شکل موج، فرکانس و طیف 2.1 Basics of Speech Acoustics - 1 Sound Waves,Waveform , Frequency,Spectrum
2.1 مبانی آکوستیک گفتار: ۲. طیف‌نگارها، MFCCها و کاربرد در یادگیری عمیق 2.1 Basics of Speech - 2 Spectrograms, MFCCs, Applications in Deep Learning
مثال کد: تحلیل و ترنسکریپشن گفتار + استخراج ویژگی‌های صوتی Code Eg & Ex 2.1 - Speech Analysis & Transcription + Speech Feature Extraction
کوییز: مبانی آکوستیک گفتار Quiz 2.1 Basics of Speech Acoustics
2.2 مدل منبع-فیلتر تولید گفتار: ۱. منبع، ۲. فیلتر 2.2 The Source-Filter Model of Speech Production - 1.The Source ,2.The Filter
2.2 مدل منبع-فیلتر: ۲. خروجی گفتار، مفاهیم کلیدی و ارتباطات 2.2 The Source-Filter Model - 2 Speech Output, Key Concepts of Speech,Relevance
کوییز: مدل منبع-فیلتر تولید گفتار Quiz 2.2 The Source-Filter Model of Speech Production
2.3 آواشناسی و واج‌شناسی در گفتار: ۱. فون‌ها، واج‌ها و آلوفون‌ها 2.3 Phonetics and Phonology in Speech - 1 Phones, Phonemes, and Allophones
2.3 آواشناسی و واج‌شناسی: ۲. نگاشت صداها به واج‌ها و ویژگی‌های آوایی 2.3 Phonetics and Phonology - 2 Mapping Sounds to Phonemes and Phonetic Features
بحث مثال کد: سیستم تحلیل و شناسایی آوایی Code Eg Discussion - 2.3 Phonetic Recognition and Analysis System
کوییز: آواشناسی و واج‌شناسی در گفتار Quiz 2.3 - Phonetics and Phonology in Speech
2.4 استخراج ویژگی‌های صوتی: ۱. ضرایب کپسترال فرکانس مل (MFCCs) 2.4 Audio Feature Extraction - 1 Mel Frequency Cepstral Coefficients (MFCCs)
2.4 استخراج ویژگی‌های صوتی: ۲. شکل موج‌های خام و نمایش‌های صوتی آموخته شده 2.4 Audio Feature Extraction - 2 Raw Waveforms and Learned Audio Representations
بحث مثال کد: استحکام در برابر نویز در تحلیل ویژگی‌های گفتار Coding Eg Discussion 2.4 - Noise Robustness in Speech Feature Analysis
کوییز: استخراج ویژگی‌های صوتی Quiz 2.4 Audio Feature Extraction
2.5 نمایش متقابل مودالیته در SpeechLMs: ۱. نمایش صوتی و ۲. نمایش متنی 2.5 Cross-Modal Representation SpeechLMs - 1 1.Audio Representation 2. Text Rep
2.5 نمایش متقابل: ۲. تراز مودالیته‌ها، ارتباط با SpeechLMs و پیاده‌سازی 2.5 Cross-Modal - 2 3. Cross-Modal Alignment, Relevance to SpeechLMs, Implement
مثال کد: چارچوب تحلیل و بصری‌سازی تراز مودال (Cross Modal Alignment) Code Eg & Ex 2.5 - Cross-Modal Alignment Visualization & Analysis Framework
کوییز: نمایش‌های متقابل مودالیته برای SpeechLMs Quiz 2.5 - Cross-Modal Representations for SpeechLMs

ماژول ۳: معماری‌ها و اجزای کلیدی SpeechLM Module 3: Architectures and Key Components of SpeechLMs

مقدمه ماژول ۳: معماری‌ها و اجزای کلیدی SpeechLMs Introduction to Module 3 - Architectures and Key Components of SpeechLMs
3.1 معماری کلی SpeechLM: مقدمه، ۱. توکن‌ساز گفتار، ۲. مدل زبانی 3.1 General Architecture SpeechLM - Intro. 1 Speech Tokenizer 2.Language Model
3.1 معماری SpeechLM: ۲. سنتز توکن به گفتار (Vocoder) و هماهنگی 3.1 Architecture SpeechLM - 2 Token-to-Speech Synthesizer (Vocoder), Co-ordinati
مثال کد: شبیه‌سازی خط لوله ساده شده SpeechLM با مدل زبانی Bigram Code Eg & Ex 3.1 - Simplified SpeechLM Pipeline Simulation + w/ Bigram Language
کوییز: معماری کلی یک SpeechLM Quiz 3.1 General Architecture of a SpeechLM
3.2 توکن‌سازهای گفتار: ۱. متدهای توکن‌سازی صوتی: مدل‌های کدک صوتی 3.2 Speech Tokenizers - 1 Audio Tokenization Methods: 1. Audio Codec Models
3.2 توکن‌سازهای گفتار: ۲. یادگیری خود-نظارتی (SSL) و ۳. سایر روش‌ها 3.2 Speech - 2 2. Self-Supervised Learning (SSL) 3.Other Methods
مثال کد: مقایسه متدهای توکن‌سازی گفتار + توکن‌سازی با واژگان بهبودیافته Code Eg & Ex - Speech Tokenization(ST) Method Comparison + ST with Enhancd Vocab
کوییز: توکن‌سازهای گفتار Quiz 3.2 Speech Tokenizers
3.3 مدل‌های زبانی در SLMها: ۱. معماری ترنسفورمر و پیش‌بینی خودبازگشتی 3.3 Language Models in SLMs - 1 Transformer Architecture, Autoregressive Predn
3.3 مدل‌های زبانی: ۲. تطبیق LLMهای متنی برای گفتار و مدل‌های زبانی چندجریانی 3.3 Language Models - 2 Adaptation Text-Based LLMs for Speech, Multi-Stream LM
مثال کد: پیش‌بینی توکن گفتار مبتنی بر ترنسفورمر + مدل‌سازی توکن گفتار Code Eg & Ex - Transformer-Based Speech Token Prediction + Speech Token Modeling
کوییز: مدل‌های زبانی در SpeechLMs Quiz 3.3 Language Models in SpeechLMs
3.4 ووکرها (Vocoders) در SpeechLMs: مقدمه، ۱. عملکرد ووکر و ضرورت آن 3.4 Vocoders in SpeechLMs -Intro 1 Function of the Vocoder , Why is it needed?
3.4 ووکرها: ۲. MelGAN, HiFi GAN, WaveNet 3.4 Vocoders - 2 MelGAN, HiFi-GAN, WaveNet
مثال کد: ووکر عصبی برای سنتز صوت + الگوریتم Griffin Lim Code Eg & Ex 3.4 - Neural Vocoder for Audio Synthesis + Griffin-Lim Algorithm
کوییز: ووکرها در SpeechLMs Quiz 3.4 Vocoders in SpeechLMs

ماژول ۴: متدهای آموزش برای مدل‌های SpeechLM Module 4: Training Methodologies for SpeechLMs

مقدمه ماژول ۴: متدهای آموزش برای SpeechLMs Introduction to Module 4 - Training Methodologies for SpeechLMs
4.1 مراحل آموزش SpeechLMs: مقدمه، ۱. خط لوله آموزش، ۱. پیش-آموزش (Pre-Training) 4.1 Training Stages for SpeechLMs - Intro., 1 Training Pipeline, 1. Pre-Training
4.1 مراحل آموزش: ۲. تنظیم دستورالعمل (Instruction Tuning)، ۳. تراز پسین، ملاحظات کلیدی 4.1 Training Stages - 2 2. Instruction-Tuning, 3. Post-Alignment, Key Conside
مثال کد: آموزش چند مرحله‌ای برای SpeechLM + خط لوله جامع آموزش Code Eg & Ex - Multi-Stage Training for SpeechLM + Comprehensive Trainig Pipline
کوییز: بررسی کلی مراحل آموزش SpeechLMs Quiz 4.1 Overview of Training Stages for SpeechLMs
4.2 پیش-آموزش SpeechLMs: ۱. داده‌های صوتی مقیاس بزرگ و دیتاست‌های رایج 4.2 Pre-Training SpeechLMs - 1 Large-Scale Speech Data, Commonly Used Datasets
4.2 پیش-آموزش SpeechLMs: ۲. دیتاست‌های جفت‌شده گفتار-متن و پیش-آموزش مشترک 4.2 Pre-Training SpeechLMs - 2 Paired Speech-Text Datasets, Joint Pre-training
مثال کد: پیش-آموزش سبک‌وزن SpeechLM + استراتژی‌های پیشرفته رمزگشایی Code Eg & Ex - Lightweight SpeechLM Pre-Training + Advanced Decoding Strategies
کوییز: متدهای پیش-آموزش برای SpeechLMs 4.2 Quiz Pre-Training Methodologies for SpeechLMs
4.3 تنظیم دستورالعمل در SpeechLMs: ۱. درک تنظیم دستورالعمل و فرآیند آن 4.3 Instruction-Tuning SpeechLMs - 1 Understanding Instruction-Tuning, Process
4.3 تنظیم دستورالعمل: ۲. ایجاد دیتاست‌های موثر و تکنیک‌های PEFT (مانند LoRA) 4.3 Instruction-Tuning 2 Creating Effective Datasets, (PEFT) Techniques: LoRA
کدها: PEFT برای Wav2Vec2 با LoRA + تنظیم شناسایی گفتار مبتنی بر دستور Codes 4.2- PEFT of Wav2Vec2 with LoRA + Instruction-Based Speech Recog Tuning
کوییز: تنظیم دستورالعمل برای مدل‌های زبان گفتار (SpeechLMs) Quiz 4.3 Instruction-Tuning for Speech Language Models (SpeechLMs)
4.4 تکنیک‌های تراز پسین (Post Alignment): مقدمه، ۱. درک تراز پسین 4.4 Post-Alignment Techniques - Introduction 1 Understanding Post-Alignment
4.4 تکنیک‌های تراز پسین: ۲. RLHF, DPO, وصله‌های امنیتی، Adversarial و RAG 4.4 Post-Alignment Techniques - 2 RLHF, DPO, Safety Patches, Adversarial, RAG
کدها: استقرار SpeechLM در دنیای واقعی با تکنیک‌های تراز پسین Codes 4.4 - Real-World SpeechLM Deployment with Post-Alignment Techniques
کوییز: تکنیک‌های تراز پسین برای مدل‌های زبان گفتار (SpeechLMs) 4.4 Quiz Post-Alignment Techniques for Speech Language Models (SpeechLMs)

ماژول ۵: قابلیت‌ها و کاربردهای تفصیلی SpeechLM Module 5: Capabilities and Applications of SpeechLMs in Detail

مقدمه ماژول ۵: قابلیت‌ها و کاربردهای تفصیلی SpeechLMs Introduction to Module 5 - Capabilities and Applications of SpeechLMs in Detail
5.1 قابلیت‌ها و کاربردهای SpeechLM: وظایف مرتبط با معنا، ۱. ASR End-to-End 5.1 Capabilities & Applications of SpeechLM: Semantic-Related Tasks - 1 E2E ASR
5.1 قابلیت‌ها: وظایف معنایی، ۲. Zero-Shot TTS و ترجمه گفتار (ST) 5.1 Capabilities : Semantic-Related - 2 Zero-Shot TTS, Speech Translation (ST
کدها: Whisper ASR با برچسب زمانی در سطح کلمه + کلونینگ صدای Zero-Shot با YourTTS Codes 5.1 - Whisper ASR Word-Level Timestamp + Zero-Shot Voice Cloning YourTTS
کوییز: قابلیت‌ها و کاربردهای SpeechLMs: وظایف مرتبط با معنا Quiz 5.1 Capabilities and Applications of SpeechLMs: Semantic-Related Tasks
5.2 قابلیت‌ها و کاربردهای SpeechLM: وظایف مرتبط با گوینده، ۱. مقدمه 5.2 Capabilities & Applications SpeechLM: Speaker-Related Tasks - 1 Introduction
5.2 قابلیت‌ها: ۲. شناسایی و تایید گوینده، گفتار شخصی‌سازی شده 5.2 Capabilities - 2 Speaker Identification & Verification, Personalized Speech
کدها: تایید گوینده با Embeddings مدل ECAPA TDNN + کلونینگ صدا Codes 5.2 - Speaker Verification with ECAPA-TDNN Embeddings + Voice Cloning
کوییز: قابلیت‌ها و کاربردهای SpeechLMs: وظایف مرتبط با گوینده Quiz 5.2 Capabilities and Applications of SpeechLMs: Speaker-Related Tasks
5.3 کاربردهای غیرزبانی در SpeechLMs: ۱. شناسایی احساسات گفتار (SER) 5.3 Paralinguistic Applications SpeechLMs -1 Speech Emotion Recognition (SER)
5.3 کاربردهای غیرزبانی: ۲. تولید گفتار احساسی، EMOVA، کنترل آهنگ صدا (Prosody)، pGSLM 5.3 Paralinguistic - 2 Emotional Speech Generation, EMOVA,Prosody Control, pGSLM
کدها: شناسایی احساسات گفتار + سنتز گفتار با کنترل آهنگ صدا Codes 5.3 - Speech Emotion Recognition + Prosody-Controlled Speech Synthesis
کوییز: کاربردهای غیرزبانی مدل‌های SpeechLMs Quiz 5.3 Paralinguistic Applications of SpeechLMs
5.4 تعاملات صوتی پیشرفته با SpeechLMs: ۱. چالش تاخیر، صوت بلادرنگ (RT Voice) 5.4 Advanced Voice Interaction w SpeechLMs - 1 The Latency Challenge, RT Voice
5.4 تعاملات پیشرفته: ۲. مدل LSLM، تشخیص پیشرفته نوبت گفتگو، شناسایی دوره تعاملی 5.4 Adv. - 2 LSLM Model, Advance Turn Detection,Interactive Period Recognition
کدها: ASR بلادرنگ با VAD و مدیریت وقفه‌ها + پیش‌بینی نوبت گفتگو در مکالمه Codes 5.4 -RT ASR w/ VAD & Interp. Handling + Turn-Taking Predn. in Conversation
کوییز: تعاملات صوتی پیشرفته با SpeechLMs Quiz 5.4 5.4 Advanced Voice Interaction with SpeechLMs

ماژول ۶: معیارهای ارزیابی و بنچ‌مارک مدل‌های SpeechLM Module 6: Evaluation Metrics and Benchmarking of SpeechLMs

مقدمه ماژول ۶: معیارهای ارزیابی و بنچ‌مارک مدل‌های SpeechLMs Introduction to Module 6 - Evaluation Metrics and Benchmarking of SpeechLMs
6.1 معیارهای ارزیابی برای SpeechLMs: ۱. مقدمه، نرخ خطای کلمه (WER) 6.1 Evaluation metrics for SpeechLMs - 1 Introduction, Word Error Rate (WER)
6.1 ارزیابی: ۲. شباهت گوینده (SS)، ۳. طبیعی بودن گفتار (MoS) و بنچ‌مارک‌گذاری 6.1 Eval.- 2 2. Speaker Similarity(SS),3. Speech Naturalness(MoS), Benchmarking
کدها: ارزیابی جامع ASR + چارچوب ارزیابی کیفیت TTS Codes 6.1 - Comprehensive ASR Evaluation + TTS Quality Evaluation Framework
کوییز: معیارهای رایج ارزیابی برای SpeechLMs Quiz 6.1 Common Evaluation metrics for SpeechLMs
6.2 ارزیابی و بنچ‌مارک SpeechLMs: ۱. ASR و ۲. TTS 6.2 Evaluating & Benchmarking SpeechLMs - 1 1.ASR 2.TTS
6.2 ارزیابی: ۳. تبدیل صدا (VC)، ۴. اپلیکیشن‌های غیرزبانی، ۵. شناسایی قصد (Intent) 6.2 Eval - 2 3. Voice Conversion (VC), 4.Paralinguistic Apps,5. Intent Recognit
6.2 ارزیابی: ۶. تحلیل احساسات، ۷. ترجمه گفتار به گفتار و بنچ‌مارک‌گذاری 6.2 Eval - 3 6. Sentiment Analysis 7. Speech-to-Speech Translation, Benchmarking
کدها: ASR با شناسایی احساسات + ارزیابی TTS/VC با تحلیل ویژگی‌های آکوستیک Codes 6.2 - ASR w/ Emotin Recognition + TTS/VC Eval w/ Acoustic Feature Analys
کوییز: ارزیابی و بنچ‌مارک مدل‌های زبان گفتار (SpeechLMs) Quiz 6.2 Evaluating and Benchmarking Speech Language Models (SpeechLMs)
6.3 دیتاست‌های بنچ‌مارک برای SpeechLMs: ۱. اهمیت دیتاست‌های بنچ‌مارک 6.3 Benchmarking Datasets fSpeechLMs - 1 The Importance of Benchmarking Dataset
6.3 بنچ‌مارک: ۲. دیتاست‌های رایج بر اساس قابلیت و نحوه استفاده از آن‌ها 6.3 Bench. - 2 Commonly Used Benchmarking Datasets by Capability,Using Datasets
کدها: ASR سفارشی + چارچوب بنچ‌مارک TTS امن با SpeechT5 و Pyannote Codes 6.3 - Custom ASR + Secure TTS Benchmarkng Framewk w/ SpeechT5 and Pyannote
کوییز: دیتاست‌های بنچ‌مارک برای مدل‌های زبان گفتار (SpeechLMs) Quiz 6.3 Benchmarking Datasets for Speech Language Models (SpeechLMs)
6.4 مقایسه SpeechLMs با سیستم‌های سنتی ASR، TTS و ترجمه: ۱. مقدمه 6.4 Comparing SpeechLMs w/ Traditional ASR, TTS, & Translation System - 1 Intro
6.4 مقایسه: ۲. SpeechLM یکپارچه، قابلیت‌های ادغام شده و متدهای بنچ‌مارک 6.4 Comparing - 2 Unified SpeechLM , Integrated Capab.Benchmarking Methodologies
کدها: مقایسه SpeechLM در مقابل سیستم سنتی ASR + حفظ احساسات Codes 6.4 Comparing SpeechLM vs Traditional ASR System + Emotion Preservation
کوییز: مقایسه SpeechLMs با سیستم‌های سنتی ASR، TTS و ترجمه Quiz 6.4 Comparing SpeechLMs w/ Traditional ASR, TTS, and Translation System

ماژول ۷: چالش‌ها و مسیرهای آینده در پژوهش‌های SpeechLM Module 7: Challenges and Future Directions in SpeechLM Research

مقدمه ماژول ۷: چالش‌ها و مسیرهای آینده در پژوهش‌های SpeechLM Introduction to Module 7 - Challenges and Future Directions in SpeechLM Research
7.1 درک انتخاب اجزا در SpeechLMs: ۱. اجزای کلیدی SpeechLMs 7.1 Understanding Component Choices in SpeechLMs - 1 Key Components SpeechLMs
7.1 درک انتخاب‌ها: ۲. اثر متقابل و اهمیت انتخاب اجزا 7.1 Understanding Choices - 2 The Interplay and Importance of Component Choices
کدها: مقایسه استخراج‌کننده‌های ویژگی گفتار + چارچوب مقایسه ووکرها Codes 7.1 - Comparing Speech Feature Extractor + Vocoder Comparison Framework
کوییز: درک انتخاب اجزا در مدل‌های زبان گفتار Quiz 7.1 Understanding Component Choices in Speech Language Models
7.2 آموزش End-to-End مدل‌های SpeechLM: ۱. درک آموزش End-to-End 7.2 End-to-End Training of SpeechLMs - 1 Understanding End-to-End Training
7.2 آموزش: ۲. اجزای اصلی، موتور SpeechLM و مزیت عملکردی E2E 7.2 End-to - 2 Core Components -The SpeechLM Engine, E2E The Performance Edge
کدها: آموزش شناسایی گفتار End-to-End + آموزش Lite Tacotron TTS Codes 7.2 - End-to-End Speech Recognition Training + Lite Tacotron TTS Training
کوییز: آموزش End-to-End اجزای SpeechLM Quiz 7.2 End-to-End Training of SpeechLM Components
7.3 مقیاس‌بندی SpeechLMs برای اندازه و داده‌های بزرگتر: ۱. اثر مقیاس‌بندی سه‌گانه 7.3 Scaling SpeechLMs to Larger Sizes and Datasets - 1 Triple Scaling Effect
7.3 مقیاس‌بندی: ۲. مکانیسم‌های مقیاس‌بندی داده‌ها، سه‌گانه مقیاس‌بندی SpeechLM و جمع‌بندی 7.3 Scaling - 2 Data Scaling Mechanics, The SpeechLM Scaling Triad, Summary
کدها: آموزش مقیاس‌پذیر شناسایی گفتار + کشینگ دیتاست و Bucketing پویا Codes 7.3 - Scalable Speech Recog Training + Dataset caching, dynamic Bucketing
کوییز: مقیاس‌بندی مدل‌های زبان گفتار برای اندازه و داده‌های بزرگتر Quiz 7.3 Scaling Speech Language Models to Larger Sizes and Datasets
7.4 بهبود مدل‌سازی اطلاعات غیرزبانی در SpeechLMs: ۱. چالش‌ها 7.4 Improving Modeling Paralinguistic Information in SpeechLMs - 1 Challenges
7.4 بهبود: ۲. تکنیک‌های پیشرفته غیرزبانی و ParalinGPT چندوجهی 7.4 Improving - 2 Advanced Paralinguistic Techniques, Multimodal ParalinGPT
کدها: شناسایی احساسات با مدل HuBERT + سنتز با کنترل آهنگ صدای FastPitch Codes 7.2 - Emotion Recog w/ HuBERT Model + Prosody-Control Synthesis FastPitch
کوییز: بهبود مدل‌سازی اطلاعات غیرزبانی در SpeechLMs Quiz 7.4 Improving Modeling of Paralinguistic Information in SpeechLMs
7.5 مدیریت زبان‌های کم‌منبع: ۱. یادگیری انتقالی و یادگیری خود-نظارتی 7.5 Handling Low-Resource Languages - 1 Transfer Learning ,Self-Supervised
7.5 مدیریت: ۲. یادگیری نیمه‌نظارتی و بهره‌برداری از زبان‌های مرتبط 7.5 Handling - 2 Semi-Supervised Learning, Leveraging Related Languages
کدها: تنظیم دقیق XLS-R برای ASR + طبقه‌بندی احساسات با SpecAugment Codes 7.5 - Fine-Tuning XLS-R for ASR + Emotion Classification with SpecAugment
کوییز: مدیریت زبان‌های کم‌منبع برای مدل‌های زبان گفتار Quiz 7.5 Handling Low-Resource Languages for Speech Language Models
7.6 توسعه SpeechLMهای بلادرنگ و دوطرفه (Duplex): ۱. معماری Duplex بلادرنگ 7.6 Developing Real-Time and Duplex SpeechLMs - 1 Real-Time Duplex Architecture
7.6 توسعه: ۲. معماری‌های استریمینگ و بهینه‌سازی مدل، VAD و Barge-In 7.6 Developing - 2 Streaming Architectures & Model Optimization, VAD, Barge-In
کدها: ASR استریمینگ با Causal Transformer تاخیر کم + سیستم VAD برای Barge-In Codes 7.6 Streaming ASR w/ Causal Transformer Low-Latency + VAD for Barge-In Sys
کوییز: توسعه SpeechLMهای بلادرنگ و دوطرفه Quiz 7.6 Developing Real-Time and Duplex SpeechLMs
7.7 پرداختن به مسائل امنیتی و اخلاقی در SpeechLMs: ۱. ریسک‌های امنیتی SpeechLM 7.7 Addressing Safety & Ethical Concerns in SpeechLMs - 1 SpeechLM Safety Risks
7.7 امنیت: ۲. لایه داده و مدل، لایه امنیت و حریم خصوصی، تضمین پاسخگویی 7.7 Address - 2 Data & Model Layer, Security & Privacy Layer, Ensuring Accountab
کدها: ارزیابی سوگیری ASR در لهجه‌ها + نظارت بر TTS با فیلتر سمیت (Toxicity) Codes 7.7 Bias Eval ASR Accent Fairness + TTS Moderation with Toxicity Filterng
کوییز: پرداختن به مسائل امنیتی و اخلاقی در SpeechLMs Quiz 7.7 Addressing Safety and Ethical Concerns in SpeechLMs

دوره های مرتبط

نمایش نظرات

آموزش تسلط بر هوش مصنوعی صوت: از ASR تا هوش مصنوعی احساسات و کلونینگ صدا

جزییات دوره

زمان دوره: 19.5 hours

تعداد ویدیو ها: 111

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 7,879

امتیاز مرجع: 4.5 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Vinit Singh

لینک کوتاه این دوره

https://donyad.com/d/8f7a4a

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

بازاریابی

دیگر

آموزش تسلط بر هوش مصنوعی صوت: از ASR تا هوش مصنوعی احساسات و کلونینگ صدا - آخرین آپدیت

دانلود Mastering Voice AI : From ASR to Emotion AI to Voice Cloning

مقدمه Introduction

مقدمه Introduction

ماژول ۱: مقدمه‌ای بر پردازش زبان گفتار و ظهور SpeechLM Module 1: Introduction to Speech Language Processing and the Emergence of Speech

مقدمه ماژول ۱: معرفی پردازش زبان گفتار و ظهور مدل SpeechLM Introduction to Module 1 -Intro to Speech LP and the Emergence of SpeechLM Model

1.1 پردازش سنتی گفتار: ۱. شناسایی خودکار گفتار (ASR) 1.1 Traditional Speech Processing - 1 Automatic Speech Recognition (ASR)

1.1 پردازش سنتی گفتار: ۲. NLU، تبدیل متن به گفتار (TTS) و یکپارچه‌سازی خط لوله 1.1 Traditional Speech - 2 NLU, Text-to-Speech (TTS),Pipeline Integration

نحوه دانلود Anaconda و ایجاد محیط مجازی How to download Anaconda and create environment

1.1 مثال کدنویسی و بحث: ساخت یک ایجنت گفتگوی مجهز به قابلیت صوت 1.1 Coding Eg & Ex. Discussion - Building a Speech-Enabled Conversational Agent

کوییز: بررسی کلی خط لوله سنتی Quiz - 1.1 Overview of Traditional Pipeline

1.2 محدودیت‌های خط لوله سنتی: ۱. از دست رفتن اطلاعات و تاخیر قابل توجه 1.2 Limitations Traditional Pipeline - 1 Information Loss, Significant Latency

1.2 محدودیت‌های خط لوله سنتی: ۲. انتشار خطا و هم‌افزایی محدودیت‌ها 1.2 Limitations Traditional - 2 Error Propagation, Synergy of Limitations

1.2 بحث مثال کدنویسی: شبیه‌سازی خط لوله گفتار با محدودیت‌ها 1.2 Coding Example Discussion - Speech Pipeline with Simulated Limitations

کوییز: محدودیت‌های خط لوله سنتی Quiz - 1.2 Limitations of Traditional Pipeline

1.3 مقدمه‌ای بر مدل‌های زبان گفتار (SpeechLMs): ۱. مدل‌های SpeechLM چیستند؟ 1.3 Introduction to Speech Language Models (SpeechLMs) - 1 What are SpeechLMs?

1.3 مقدمه‌ای بر SpeechLMs: ۲. نحوه عملکرد و ثبت اطلاعات غنی 1.3 Introduction to SpeechLMs - 2 How do SpeechLMs work, capture Rich Info

مثال کد و بحث: توکن‌سازی و بازسازی صوتی + پهنای باند چندگانه Coding Eg & Ex Disc. 1.3- Audio Tokenization and Reconstruction + Multi-Bandwidt

کوییز: مقدمه‌ای بر مدل‌های زبان گفتار (SpeechLMs) Quiz - 1.3 Introduction to Speech Language Models (SpeechLMs)

1.4 مزایای SpeechLMs: ۱. کاهش تاخیر و اطلاعات غیرزبانی 1.4 - Advantages SpeechLMs - 1 Reduced Latency, Paralinguistic Information

1.4 مزایای SpeechLMs: ۲. قابلیت کاربرد در زبان‌های کم‌منبع (LRL) 1.4 - Advantages SpeechLMs - 2 Applicability to Low Resource Languages (LRL)

مثال کد: شناسایی گفتار و احساسات با SpeechLM (مدل wav2vec2) Coding Eg & Ex 1.4 - Speech & Emotion Recognition with SpeechLM - wav2vec2

کوییز: مزایای مدل‌های زبان گفتار (SpeechLMs) Quiz - 1.4 Advantages of Speech Language Models (SpeechLMs)

1.5 مقایسه SpeechLM در مقابل TextLM: ۱. مودالیته ورودی، خروجی و معماری 1.5 SpeechLM vs TextLM - 1 Input Modality ,Output Modality, Architecture

1.5 مقایسه SpeechLM در مقابل TextLM: ۲. نمایش‌های داخلی، داده‌های آموزشی و کاربردها 1.5 SpeechLM vs TextLM - 2 Internal Representations, Training Data, Applicatio

بحث مثال کدنویسی: مقایسه مودالیته TextLM در مقابل SpeechLM Coding Example Discussion 1.5 - TextLM vs. SpeechLM Modality Comparison

کوییز: تضاد SpeechLM با مدل‌های زبانی مبتنی بر متن (TextLMs) Quiz - 1.5 Contrast of SpeechLM with Text-based Language Models (TextLMs)

1.6 کاربردهای SpeechLMs: ۱. مقدمه و وظایف معنایی (تمرکز بر محتوا) 1.6 Applications SpeechLMs - 1 Introduction, Semantic Tasks (Focus on Content)

1.6 کاربردهای SpeechLMs: ۲. وظایف مرتبط با گوینده و وظایف غیرزبانی 1.6 Applications SpeechLMs - 2 Speaker-Related Tasks, Paralinguistic Tasks

بحث مثال کدنویسی: دستیار صوتی حساس به احساسات Coding Example Discussion 1.6 - Emotion-Aware Speech Assistant

کوییز: کاربردهای مدل‌های زبان گفتار (SpeechLMs) - بخش ۲ Quiz - 1.6 Applications of Speech Language Models (SpeechLMs) - Part 2

ماژول ۲: مبانی گفتار و زبان برای مدل‌های SpeechLM Module 2: Fundamentals of Speech and Language for SpeechLMs

مقدمه ماژول ۲: مبانی گفتار و زبان برای مدل‌های SpeechLM Intro to Module 2 - Fundamentals of Speech and Language for SpeechLMs

2.1 مبانی آکوستیک گفتار: ۱. امواج صوتی، شکل موج، فرکانس و طیف 2.1 Basics of Speech Acoustics - 1 Sound Waves,Waveform , Frequency,Spectrum

2.1 مبانی آکوستیک گفتار: ۲. طیف‌نگارها، MFCCها و کاربرد در یادگیری عمیق 2.1 Basics of Speech - 2 Spectrograms, MFCCs, Applications in Deep Learning

مثال کد: تحلیل و ترنسکریپشن گفتار + استخراج ویژگی‌های صوتی Code Eg & Ex 2.1 - Speech Analysis & Transcription + Speech Feature Extraction

کوییز: مبانی آکوستیک گفتار Quiz 2.1 Basics of Speech Acoustics

2.2 مدل منبع-فیلتر تولید گفتار: ۱. منبع، ۲. فیلتر 2.2 The Source-Filter Model of Speech Production - 1.The Source ,2.The Filter

2.2 مدل منبع-فیلتر: ۲. خروجی گفتار، مفاهیم کلیدی و ارتباطات 2.2 The Source-Filter Model - 2 Speech Output, Key Concepts of Speech,Relevance

کوییز: مدل منبع-فیلتر تولید گفتار Quiz 2.2 The Source-Filter Model of Speech Production

2.3 آواشناسی و واج‌شناسی در گفتار: ۱. فون‌ها، واج‌ها و آلوفون‌ها 2.3 Phonetics and Phonology in Speech - 1 Phones, Phonemes, and Allophones

2.3 آواشناسی و واج‌شناسی: ۲. نگاشت صداها به واج‌ها و ویژگی‌های آوایی 2.3 Phonetics and Phonology - 2 Mapping Sounds to Phonemes and Phonetic Features

بحث مثال کد: سیستم تحلیل و شناسایی آوایی Code Eg Discussion - 2.3 Phonetic Recognition and Analysis System

کوییز: آواشناسی و واج‌شناسی در گفتار Quiz 2.3 - Phonetics and Phonology in Speech

2.4 استخراج ویژگی‌های صوتی: ۱. ضرایب کپسترال فرکانس مل (MFCCs) 2.4 Audio Feature Extraction - 1 Mel Frequency Cepstral Coefficients (MFCCs)

2.4 استخراج ویژگی‌های صوتی: ۲. شکل موج‌های خام و نمایش‌های صوتی آموخته شده 2.4 Audio Feature Extraction - 2 Raw Waveforms and Learned Audio Representations

بحث مثال کد: استحکام در برابر نویز در تحلیل ویژگی‌های گفتار Coding Eg Discussion 2.4 - Noise Robustness in Speech Feature Analysis

کوییز: استخراج ویژگی‌های صوتی Quiz 2.4 Audio Feature Extraction

2.5 نمایش متقابل مودالیته در SpeechLMs: ۱. نمایش صوتی و ۲. نمایش متنی 2.5 Cross-Modal Representation SpeechLMs - 1 1.Audio Representation 2. Text Rep

2.5 نمایش متقابل: ۲. تراز مودالیته‌ها، ارتباط با SpeechLMs و پیاده‌سازی 2.5 Cross-Modal - 2 3. Cross-Modal Alignment, Relevance to SpeechLMs, Implement

مثال کد: چارچوب تحلیل و بصری‌سازی تراز مودال (Cross Modal Alignment) Code Eg & Ex 2.5 - Cross-Modal Alignment Visualization & Analysis Framework

کوییز: نمایش‌های متقابل مودالیته برای SpeechLMs Quiz 2.5 - Cross-Modal Representations for SpeechLMs

ماژول ۳: معماری‌ها و اجزای کلیدی SpeechLM Module 3: Architectures and Key Components of SpeechLMs

مقدمه ماژول ۳: معماری‌ها و اجزای کلیدی SpeechLMs Introduction to Module 3 - Architectures and Key Components of SpeechLMs

3.1 معماری کلی SpeechLM: مقدمه، ۱. توکن‌ساز گفتار، ۲. مدل زبانی 3.1 General Architecture SpeechLM - Intro. 1 Speech Tokenizer 2.Language Model

3.1 معماری SpeechLM: ۲. سنتز توکن به گفتار (Vocoder) و هماهنگی 3.1 Architecture SpeechLM - 2 Token-to-Speech Synthesizer (Vocoder), Co-ordinati

مثال کد: شبیه‌سازی خط لوله ساده شده SpeechLM با مدل زبانی Bigram Code Eg & Ex 3.1 - Simplified SpeechLM Pipeline Simulation + w/ Bigram Language

کوییز: معماری کلی یک SpeechLM Quiz 3.1 General Architecture of a SpeechLM

3.2 توکن‌سازهای گفتار: ۱. متدهای توکن‌سازی صوتی: مدل‌های کدک صوتی 3.2 Speech Tokenizers - 1 Audio Tokenization Methods: 1. Audio Codec Models

3.2 توکن‌سازهای گفتار: ۲. یادگیری خود-نظارتی (SSL) و ۳. سایر روش‌ها 3.2 Speech - 2 2. Self-Supervised Learning (SSL) 3.Other Methods

مثال کد: مقایسه متدهای توکن‌سازی گفتار + توکن‌سازی با واژگان بهبودیافته Code Eg & Ex - Speech Tokenization(ST) Method Comparison + ST with Enhancd Vocab

کوییز: توکن‌سازهای گفتار Quiz 3.2 Speech Tokenizers

3.3 مدل‌های زبانی در SLMها: ۱. معماری ترنسفورمر و پیش‌بینی خودبازگشتی 3.3 Language Models in SLMs - 1 Transformer Architecture, Autoregressive Predn

3.3 مدل‌های زبانی: ۲. تطبیق LLMهای متنی برای گفتار و مدل‌های زبانی چندجریانی 3.3 Language Models - 2 Adaptation Text-Based LLMs for Speech, Multi-Stream LM

مثال کد: پیش‌بینی توکن گفتار مبتنی بر ترنسفورمر + مدل‌سازی توکن گفتار Code Eg & Ex - Transformer-Based Speech Token Prediction + Speech Token Modeling

کوییز: مدل‌های زبانی در SpeechLMs Quiz 3.3 Language Models in SpeechLMs

3.4 ووکرها (Vocoders) در SpeechLMs: مقدمه، ۱. عملکرد ووکر و ضرورت آن 3.4 Vocoders in SpeechLMs -Intro 1 Function of the Vocoder , Why is it needed?

3.4 ووکرها: ۲. MelGAN, HiFi GAN, WaveNet 3.4 Vocoders - 2 MelGAN, HiFi-GAN, WaveNet

مثال کد: ووکر عصبی برای سنتز صوت + الگوریتم Griffin Lim Code Eg & Ex 3.4 - Neural Vocoder for Audio Synthesis + Griffin-Lim Algorithm

کوییز: ووکرها در SpeechLMs Quiz 3.4 Vocoders in SpeechLMs

ماژول ۴: متدهای آموزش برای مدل‌های SpeechLM Module 4: Training Methodologies for SpeechLMs

مقدمه ماژول ۴: متدهای آموزش برای SpeechLMs Introduction to Module 4 - Training Methodologies for SpeechLMs

4.1 مراحل آموزش SpeechLMs: مقدمه، ۱. خط لوله آموزش، ۱. پیش-آموزش (Pre-Training) 4.1 Training Stages for SpeechLMs - Intro., 1 Training Pipeline, 1. Pre-Training

4.1 مراحل آموزش: ۲. تنظیم دستورالعمل (Instruction Tuning)، ۳. تراز پسین، ملاحظات کلیدی 4.1 Training Stages - 2 2. Instruction-Tuning, 3. Post-Alignment, Key Conside

مثال کد: آموزش چند مرحله‌ای برای SpeechLM + خط لوله جامع آموزش Code Eg & Ex - Multi-Stage Training for SpeechLM + Comprehensive Trainig Pipline

کوییز: بررسی کلی مراحل آموزش SpeechLMs Quiz 4.1 Overview of Training Stages for SpeechLMs

4.2 پیش-آموزش SpeechLMs: ۱. داده‌های صوتی مقیاس بزرگ و دیتاست‌های رایج 4.2 Pre-Training SpeechLMs - 1 Large-Scale Speech Data, Commonly Used Datasets

4.2 پیش-آموزش SpeechLMs: ۲. دیتاست‌های جفت‌شده گفتار-متن و پیش-آموزش مشترک 4.2 Pre-Training SpeechLMs - 2 Paired Speech-Text Datasets, Joint Pre-training