آموزش تسلط بر هوش مصنوعی صوت: از ASR تا هوش مصنوعی احساسات و کلونینگ صدا - آخرین آپدیت

دانلود Mastering Voice AI : From ASR to Emotion AI to Voice Cloning

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: در این دوره، مدل‌های پیشرفته زبان گفتار (SpeechLMs) را فرا بگیرید و اپلیکیشن‌های نسل جدید هوش مصنوعی صوت را با قابلیت‌های گفتار End-to-End بسازید. توسعه مدل‌های زبان گفتار End-to-End با استفاده از پایتون و معماری‌های ترنسفورمر. تسلط بر استخراج ویژگی‌های صوتی و توکن‌سازی برای شناسایی و سنتز گفتار. ساخت هوش مصنوعی برای تشخیص احساسات و شخصی‌سازی گفتار با کاربردهای دنیای واقعی. ارزیابی SpeechLMs با معیارهایی مانند WER و بررسی روش‌های طراحی اخلاقی در هوش مصنوعی. پیش‌نیازها: هیچ تجربه قبلی در زمینه هوش مصنوعی صوت نیاز نیست – این دوره برای مبتدیان با راهنمایی‌های عملی طراحی شده است! یک کامپیوتر با پایتون 3.7 به بالا، TensorFlow/PyTorch و کتابخانه‌های صوتی (مانند Librosa). برنامه‌نویسی پایه پایتون (آشنایی با حلقه‌ها، توابع و کتابخانه‌هایی مانند NumPy).

درک خود از هوش مصنوعی صوت را با این دوره جامع در مورد مدل‌های زبان گفتار (SLMs) تغییر دهید - فناوری انقلابی که خط لوله‌های سنتی پردازش گفتار را با راهکارهای قدرتمند End-to-End جایگزین می‌کند.

آنچه در این دوره یاد می‌گیرید:

مدل‌های زبان گفتار (Speech Language Models) مرز جدیدی در هوش مصنوعی هستند و از محدودیت‌های خط لوله‌های سنتی (ASR → LLM → TTS) فراتر می‌روند. این دوره شما را از مفاهیم بنیادی تا کاربردهای پیشرفته می‌برد و همه موارد، از توکن‌سازی گفتار و معماری‌های ترنسفورمر تا هوش مصنوعی احساسات و تعاملات صوتی بلادرنگ را پوشش می‌دهد.

چرا این دوره اهمیت دارد:

پردازش سنتی گفتار از مشکلاتی مانند از دست رفتن اطلاعات، تاخیر بالا و تجمع خطا در مراحل مختلف رنج می‌برد. SLMها با پردازش مستقیم گفتار، نه تنها کلمات، بلکه احساسات، هویت گوینده و نشانه‌های غیرزبانی (paralinguistic) را که ارتباطات انسانی را غنی و ظریف می‌کند، ثبت می‌کنند.

ویژگی‌های منحصر به فرد این دوره:

  • یادگیری عملی: کار با مدل‌های پیشرو مانند YourTTS، Whisper و HuBERT

  • پوشش کامل خط لوله: از صوت خام تا استقرار اپلیکیشن‌ها

  • کاربردهای واقعی: ساخت سیستم‌های ASR، کلونینگ صدا، تشخیص احساسات و ایجنت‌های صوتی تعاملی

  • آخرین پژوهش‌ها: پوشش پیشرفت‌های لبه تکنولوژی در حوزه در حال تکامل SLM

  • پیاده‌سازی کاربردی: یادگیری متدهای آموزش، معیارهای ارزیابی و استراتژی‌های استقرار

تکنولوژی‌های کلیدی که با آن‌ها کار خواهید کرد:

  • توکن‌سازهای گفتار (EnCodec, HuBERT, Wav2Vec 2.0)

  • معماری‌های ترنسفورمر تطبیق‌یافته برای گفتار (Whisper, Conformer و غیره)

  • تکنولوژی‌های ووکر/بک‌کد (Tacotron, Hi-Fi GAN, MelGAN و غیره)

  • رویکردهای آموزش چندوجهی (CTC, UCTC و غیره)

  • تنظیم دقیق پارامتر-بهینه (LoRA)

این دوره برای چه کسانی مناسب است:

  • مهندسان AI/ML که می‌خواهند در تکنولوژی گفتار تخصص پیدا کنند

  • دانشجویان یا افرادی که در حال تغییر مسیر شغلی هستند

  • پژوهشگرانی که در حال بررسی نسل بعدی هوش مصنوعی صوت هستند

  • توسعه‌دهندگانی که اپلیکیشن‌های Voice-First می‌سازند

  • هر کسی که کنجکاو است بداند دستیارهای صوتی مدرن واقعاً چگونه کار می‌کنند

نتیجه دوره:

در پایان، شما مهارت‌های لازم برای طراحی، آموزش و استقرار مدل‌های زبان گفتار را برای کاربردهای متنوع - از شناسایی ساده گفتار تا ایجنت‌های صوتی پیشرفته و حساس به احساسات - خواهید داشت. شما هم مبانی تئوری و هم جزئیات عملی مورد نیاز برای ایفای نقش در این حوزه هیجان‌انگیز را درک خواهید کرد.

به انقلاب هوش مصنوعی صوت بپیوندید و بر تکنولوژی‌ای تسلط یابید که تعامل انسان و کامپیوتر را بازتعریف می‌کند!


سرفصل ها و درس ها

مقدمه Introduction

  • مقدمه Introduction

ماژول ۱: مقدمه‌ای بر پردازش زبان گفتار و ظهور SpeechLM Module 1: Introduction to Speech Language Processing and the Emergence of Speech

  • مقدمه ماژول ۱: معرفی پردازش زبان گفتار و ظهور مدل SpeechLM Introduction to Module 1 -Intro to Speech LP and the Emergence of SpeechLM Model

  • 1.1 پردازش سنتی گفتار: ۱. شناسایی خودکار گفتار (ASR) 1.1 Traditional Speech Processing - 1 Automatic Speech Recognition (ASR)

  • 1.1 پردازش سنتی گفتار: ۲. NLU، تبدیل متن به گفتار (TTS) و یکپارچه‌سازی خط لوله 1.1 Traditional Speech - 2 NLU, Text-to-Speech (TTS),Pipeline Integration

  • نحوه دانلود Anaconda و ایجاد محیط مجازی How to download Anaconda and create environment

  • 1.1 مثال کدنویسی و بحث: ساخت یک ایجنت گفتگوی مجهز به قابلیت صوت 1.1 Coding Eg & Ex. Discussion - Building a Speech-Enabled Conversational Agent

  • کوییز: بررسی کلی خط لوله سنتی Quiz - 1.1 Overview of Traditional Pipeline

  • 1.2 محدودیت‌های خط لوله سنتی: ۱. از دست رفتن اطلاعات و تاخیر قابل توجه 1.2 Limitations Traditional Pipeline - 1 Information Loss, Significant Latency

  • 1.2 محدودیت‌های خط لوله سنتی: ۲. انتشار خطا و هم‌افزایی محدودیت‌ها 1.2 Limitations Traditional - 2 Error Propagation, Synergy of Limitations

  • 1.2 بحث مثال کدنویسی: شبیه‌سازی خط لوله گفتار با محدودیت‌ها 1.2 Coding Example Discussion - Speech Pipeline with Simulated Limitations

  • کوییز: محدودیت‌های خط لوله سنتی Quiz - 1.2 Limitations of Traditional Pipeline

  • 1.3 مقدمه‌ای بر مدل‌های زبان گفتار (SpeechLMs): ۱. مدل‌های SpeechLM چیستند؟ 1.3 Introduction to Speech Language Models (SpeechLMs) - 1 What are SpeechLMs?

  • 1.3 مقدمه‌ای بر SpeechLMs: ۲. نحوه عملکرد و ثبت اطلاعات غنی 1.3 Introduction to SpeechLMs - 2 How do SpeechLMs work, capture Rich Info

  • مثال کد و بحث: توکن‌سازی و بازسازی صوتی + پهنای باند چندگانه Coding Eg & Ex Disc. 1.3- Audio Tokenization and Reconstruction + Multi-Bandwidt

  • کوییز: مقدمه‌ای بر مدل‌های زبان گفتار (SpeechLMs) Quiz - 1.3 Introduction to Speech Language Models (SpeechLMs)

  • 1.4 مزایای SpeechLMs: ۱. کاهش تاخیر و اطلاعات غیرزبانی 1.4 - Advantages SpeechLMs - 1 Reduced Latency, Paralinguistic Information

  • 1.4 مزایای SpeechLMs: ۲. قابلیت کاربرد در زبان‌های کم‌منبع (LRL) 1.4 - Advantages SpeechLMs - 2 Applicability to Low Resource Languages (LRL)

  • مثال کد: شناسایی گفتار و احساسات با SpeechLM (مدل wav2vec2) Coding Eg & Ex 1.4 - Speech & Emotion Recognition with SpeechLM - wav2vec2

  • کوییز: مزایای مدل‌های زبان گفتار (SpeechLMs) Quiz - 1.4 Advantages of Speech Language Models (SpeechLMs)

  • 1.5 مقایسه SpeechLM در مقابل TextLM: ۱. مودالیته ورودی، خروجی و معماری 1.5 SpeechLM vs TextLM - 1 Input Modality ,Output Modality, Architecture

  • 1.5 مقایسه SpeechLM در مقابل TextLM: ۲. نمایش‌های داخلی، داده‌های آموزشی و کاربردها 1.5 SpeechLM vs TextLM - 2 Internal Representations, Training Data, Applicatio

  • بحث مثال کدنویسی: مقایسه مودالیته TextLM در مقابل SpeechLM Coding Example Discussion 1.5 - TextLM vs. SpeechLM Modality Comparison

  • کوییز: تضاد SpeechLM با مدل‌های زبانی مبتنی بر متن (TextLMs) Quiz - 1.5 Contrast of SpeechLM with Text-based Language Models (TextLMs)

  • 1.6 کاربردهای SpeechLMs: ۱. مقدمه و وظایف معنایی (تمرکز بر محتوا) 1.6 Applications SpeechLMs - 1 Introduction, Semantic Tasks (Focus on Content)

  • 1.6 کاربردهای SpeechLMs: ۲. وظایف مرتبط با گوینده و وظایف غیرزبانی 1.6 Applications SpeechLMs - 2 Speaker-Related Tasks, Paralinguistic Tasks

  • بحث مثال کدنویسی: دستیار صوتی حساس به احساسات Coding Example Discussion 1.6 - Emotion-Aware Speech Assistant

  • کوییز: کاربردهای مدل‌های زبان گفتار (SpeechLMs) - بخش ۲ Quiz - 1.6 Applications of Speech Language Models (SpeechLMs) - Part 2

ماژول ۲: مبانی گفتار و زبان برای مدل‌های SpeechLM Module 2: Fundamentals of Speech and Language for SpeechLMs

  • مقدمه ماژول ۲: مبانی گفتار و زبان برای مدل‌های SpeechLM Intro to Module 2 - Fundamentals of Speech and Language for SpeechLMs

  • 2.1 مبانی آکوستیک گفتار: ۱. امواج صوتی، شکل موج، فرکانس و طیف 2.1 Basics of Speech Acoustics - 1 Sound Waves,Waveform , Frequency,Spectrum

  • 2.1 مبانی آکوستیک گفتار: ۲. طیف‌نگارها، MFCCها و کاربرد در یادگیری عمیق 2.1 Basics of Speech - 2 Spectrograms, MFCCs, Applications in Deep Learning

  • مثال کد: تحلیل و ترنسکریپشن گفتار + استخراج ویژگی‌های صوتی Code Eg & Ex 2.1 - Speech Analysis & Transcription + Speech Feature Extraction

  • کوییز: مبانی آکوستیک گفتار Quiz 2.1 Basics of Speech Acoustics

  • 2.2 مدل منبع-فیلتر تولید گفتار: ۱. منبع، ۲. فیلتر 2.2 The Source-Filter Model of Speech Production - 1.The Source ,2.The Filter

  • 2.2 مدل منبع-فیلتر: ۲. خروجی گفتار، مفاهیم کلیدی و ارتباطات 2.2 The Source-Filter Model - 2 Speech Output, Key Concepts of Speech,Relevance

  • کوییز: مدل منبع-فیلتر تولید گفتار Quiz 2.2 The Source-Filter Model of Speech Production

  • 2.3 آواشناسی و واج‌شناسی در گفتار: ۱. فون‌ها، واج‌ها و آلوفون‌ها 2.3 Phonetics and Phonology in Speech - 1 Phones, Phonemes, and Allophones

  • 2.3 آواشناسی و واج‌شناسی: ۲. نگاشت صداها به واج‌ها و ویژگی‌های آوایی 2.3 Phonetics and Phonology - 2 Mapping Sounds to Phonemes and Phonetic Features

  • بحث مثال کد: سیستم تحلیل و شناسایی آوایی Code Eg Discussion - 2.3 Phonetic Recognition and Analysis System

  • کوییز: آواشناسی و واج‌شناسی در گفتار Quiz 2.3 - Phonetics and Phonology in Speech

  • 2.4 استخراج ویژگی‌های صوتی: ۱. ضرایب کپسترال فرکانس مل (MFCCs) 2.4 Audio Feature Extraction - 1 Mel Frequency Cepstral Coefficients (MFCCs)

  • 2.4 استخراج ویژگی‌های صوتی: ۲. شکل موج‌های خام و نمایش‌های صوتی آموخته شده 2.4 Audio Feature Extraction - 2 Raw Waveforms and Learned Audio Representations

  • بحث مثال کد: استحکام در برابر نویز در تحلیل ویژگی‌های گفتار Coding Eg Discussion 2.4 - Noise Robustness in Speech Feature Analysis

  • کوییز: استخراج ویژگی‌های صوتی Quiz 2.4 Audio Feature Extraction

  • 2.5 نمایش متقابل مودالیته در SpeechLMs: ۱. نمایش صوتی و ۲. نمایش متنی 2.5 Cross-Modal Representation SpeechLMs - 1 1.Audio Representation 2. Text Rep

  • 2.5 نمایش متقابل: ۲. تراز مودالیته‌ها، ارتباط با SpeechLMs و پیاده‌سازی 2.5 Cross-Modal - 2 3. Cross-Modal Alignment, Relevance to SpeechLMs, Implement

  • مثال کد: چارچوب تحلیل و بصری‌سازی تراز مودال (Cross Modal Alignment) Code Eg & Ex 2.5 - Cross-Modal Alignment Visualization & Analysis Framework

  • کوییز: نمایش‌های متقابل مودالیته برای SpeechLMs Quiz 2.5 - Cross-Modal Representations for SpeechLMs

ماژول ۳: معماری‌ها و اجزای کلیدی SpeechLM Module 3: Architectures and Key Components of SpeechLMs

  • مقدمه ماژول ۳: معماری‌ها و اجزای کلیدی SpeechLMs Introduction to Module 3 - Architectures and Key Components of SpeechLMs

  • 3.1 معماری کلی SpeechLM: مقدمه، ۱. توکن‌ساز گفتار، ۲. مدل زبانی 3.1 General Architecture SpeechLM - Intro. 1 Speech Tokenizer 2.Language Model

  • 3.1 معماری SpeechLM: ۲. سنتز توکن به گفتار (Vocoder) و هماهنگی 3.1 Architecture SpeechLM - 2 Token-to-Speech Synthesizer (Vocoder), Co-ordinati

  • مثال کد: شبیه‌سازی خط لوله ساده شده SpeechLM با مدل زبانی Bigram Code Eg & Ex 3.1 - Simplified SpeechLM Pipeline Simulation + w/ Bigram Language

  • کوییز: معماری کلی یک SpeechLM Quiz 3.1 General Architecture of a SpeechLM

  • 3.2 توکن‌سازهای گفتار: ۱. متدهای توکن‌سازی صوتی: مدل‌های کدک صوتی 3.2 Speech Tokenizers - 1 Audio Tokenization Methods: 1. Audio Codec Models

  • 3.2 توکن‌سازهای گفتار: ۲. یادگیری خود-نظارتی (SSL) و ۳. سایر روش‌ها 3.2 Speech - 2 2. Self-Supervised Learning (SSL) 3.Other Methods

  • مثال کد: مقایسه متدهای توکن‌سازی گفتار + توکن‌سازی با واژگان بهبودیافته Code Eg & Ex - Speech Tokenization(ST) Method Comparison + ST with Enhancd Vocab

  • کوییز: توکن‌سازهای گفتار Quiz 3.2 Speech Tokenizers

  • 3.3 مدل‌های زبانی در SLMها: ۱. معماری ترنسفورمر و پیش‌بینی خودبازگشتی 3.3 Language Models in SLMs - 1 Transformer Architecture, Autoregressive Predn

  • 3.3 مدل‌های زبانی: ۲. تطبیق LLMهای متنی برای گفتار و مدل‌های زبانی چندجریانی 3.3 Language Models - 2 Adaptation Text-Based LLMs for Speech, Multi-Stream LM

  • مثال کد: پیش‌بینی توکن گفتار مبتنی بر ترنسفورمر + مدل‌سازی توکن گفتار Code Eg & Ex - Transformer-Based Speech Token Prediction + Speech Token Modeling

  • کوییز: مدل‌های زبانی در SpeechLMs Quiz 3.3 Language Models in SpeechLMs

  • 3.4 ووکرها (Vocoders) در SpeechLMs: مقدمه، ۱. عملکرد ووکر و ضرورت آن 3.4 Vocoders in SpeechLMs -Intro 1 Function of the Vocoder , Why is it needed?

  • 3.4 ووکرها: ۲. MelGAN, HiFi GAN, WaveNet 3.4 Vocoders - 2 MelGAN, HiFi-GAN, WaveNet

  • مثال کد: ووکر عصبی برای سنتز صوت + الگوریتم Griffin Lim Code Eg & Ex 3.4 - Neural Vocoder for Audio Synthesis + Griffin-Lim Algorithm

  • کوییز: ووکرها در SpeechLMs Quiz 3.4 Vocoders in SpeechLMs

ماژول ۴: متدهای آموزش برای مدل‌های SpeechLM Module 4: Training Methodologies for SpeechLMs

  • مقدمه ماژول ۴: متدهای آموزش برای SpeechLMs Introduction to Module 4 - Training Methodologies for SpeechLMs

  • 4.1 مراحل آموزش SpeechLMs: مقدمه، ۱. خط لوله آموزش، ۱. پیش-آموزش (Pre-Training) 4.1 Training Stages for SpeechLMs - Intro., 1 Training Pipeline, 1. Pre-Training

  • 4.1 مراحل آموزش: ۲. تنظیم دستورالعمل (Instruction Tuning)، ۳. تراز پسین، ملاحظات کلیدی 4.1 Training Stages - 2 2. Instruction-Tuning, 3. Post-Alignment, Key Conside

  • مثال کد: آموزش چند مرحله‌ای برای SpeechLM + خط لوله جامع آموزش Code Eg & Ex - Multi-Stage Training for SpeechLM + Comprehensive Trainig Pipline

  • کوییز: بررسی کلی مراحل آموزش SpeechLMs Quiz 4.1 Overview of Training Stages for SpeechLMs

  • 4.2 پیش-آموزش SpeechLMs: ۱. داده‌های صوتی مقیاس بزرگ و دیتاست‌های رایج 4.2 Pre-Training SpeechLMs - 1 Large-Scale Speech Data, Commonly Used Datasets

  • 4.2 پیش-آموزش SpeechLMs: ۲. دیتاست‌های جفت‌شده گفتار-متن و پیش-آموزش مشترک 4.2 Pre-Training SpeechLMs - 2 Paired Speech-Text Datasets, Joint Pre-training

  • مثال کد: پیش-آموزش سبک‌وزن SpeechLM + استراتژی‌های پیشرفته رمزگشایی Code Eg & Ex - Lightweight SpeechLM Pre-Training + Advanced Decoding Strategies

  • کوییز: متدهای پیش-آموزش برای SpeechLMs 4.2 Quiz Pre-Training Methodologies for SpeechLMs

  • 4.3 تنظیم دستورالعمل در SpeechLMs: ۱. درک تنظیم دستورالعمل و فرآیند آن 4.3 Instruction-Tuning SpeechLMs - 1 Understanding Instruction-Tuning, Process

  • 4.3 تنظیم دستورالعمل: ۲. ایجاد دیتاست‌های موثر و تکنیک‌های PEFT (مانند LoRA) 4.3 Instruction-Tuning 2 Creating Effective Datasets, (PEFT) Techniques: LoRA

  • کدها: PEFT برای Wav2Vec2 با LoRA + تنظیم شناسایی گفتار مبتنی بر دستور Codes 4.2- PEFT of Wav2Vec2 with LoRA + Instruction-Based Speech Recog Tuning

  • کوییز: تنظیم دستورالعمل برای مدل‌های زبان گفتار (SpeechLMs) Quiz 4.3 Instruction-Tuning for Speech Language Models (SpeechLMs)

  • 4.4 تکنیک‌های تراز پسین (Post Alignment): مقدمه، ۱. درک تراز پسین 4.4 Post-Alignment Techniques - Introduction 1 Understanding Post-Alignment

  • 4.4 تکنیک‌های تراز پسین: ۲. RLHF, DPO, وصله‌های امنیتی، Adversarial و RAG 4.4 Post-Alignment Techniques - 2 RLHF, DPO, Safety Patches, Adversarial, RAG

  • کدها: استقرار SpeechLM در دنیای واقعی با تکنیک‌های تراز پسین Codes 4.4 - Real-World SpeechLM Deployment with Post-Alignment Techniques

  • کوییز: تکنیک‌های تراز پسین برای مدل‌های زبان گفتار (SpeechLMs) 4.4 Quiz Post-Alignment Techniques for Speech Language Models (SpeechLMs)

ماژول ۵: قابلیت‌ها و کاربردهای تفصیلی SpeechLM Module 5: Capabilities and Applications of SpeechLMs in Detail

  • مقدمه ماژول ۵: قابلیت‌ها و کاربردهای تفصیلی SpeechLMs Introduction to Module 5 - Capabilities and Applications of SpeechLMs in Detail

  • 5.1 قابلیت‌ها و کاربردهای SpeechLM: وظایف مرتبط با معنا، ۱. ASR End-to-End 5.1 Capabilities & Applications of SpeechLM: Semantic-Related Tasks - 1 E2E ASR

  • 5.1 قابلیت‌ها: وظایف معنایی، ۲. Zero-Shot TTS و ترجمه گفتار (ST) 5.1 Capabilities : Semantic-Related - 2 Zero-Shot TTS, Speech Translation (ST

  • کدها: Whisper ASR با برچسب زمانی در سطح کلمه + کلونینگ صدای Zero-Shot با YourTTS Codes 5.1 - Whisper ASR Word-Level Timestamp + Zero-Shot Voice Cloning YourTTS

  • کوییز: قابلیت‌ها و کاربردهای SpeechLMs: وظایف مرتبط با معنا Quiz 5.1 Capabilities and Applications of SpeechLMs: Semantic-Related Tasks

  • 5.2 قابلیت‌ها و کاربردهای SpeechLM: وظایف مرتبط با گوینده، ۱. مقدمه 5.2 Capabilities & Applications SpeechLM: Speaker-Related Tasks - 1 Introduction

  • 5.2 قابلیت‌ها: ۲. شناسایی و تایید گوینده، گفتار شخصی‌سازی شده 5.2 Capabilities - 2 Speaker Identification & Verification, Personalized Speech

  • کدها: تایید گوینده با Embeddings مدل ECAPA TDNN + کلونینگ صدا Codes 5.2 - Speaker Verification with ECAPA-TDNN Embeddings + Voice Cloning

  • کوییز: قابلیت‌ها و کاربردهای SpeechLMs: وظایف مرتبط با گوینده Quiz 5.2 Capabilities and Applications of SpeechLMs: Speaker-Related Tasks

  • 5.3 کاربردهای غیرزبانی در SpeechLMs: ۱. شناسایی احساسات گفتار (SER) 5.3 Paralinguistic Applications SpeechLMs -1 Speech Emotion Recognition (SER)

  • 5.3 کاربردهای غیرزبانی: ۲. تولید گفتار احساسی، EMOVA، کنترل آهنگ صدا (Prosody)، pGSLM 5.3 Paralinguistic - 2 Emotional Speech Generation, EMOVA,Prosody Control, pGSLM

  • کدها: شناسایی احساسات گفتار + سنتز گفتار با کنترل آهنگ صدا Codes 5.3 - Speech Emotion Recognition + Prosody-Controlled Speech Synthesis

  • کوییز: کاربردهای غیرزبانی مدل‌های SpeechLMs Quiz 5.3 Paralinguistic Applications of SpeechLMs

  • 5.4 تعاملات صوتی پیشرفته با SpeechLMs: ۱. چالش تاخیر، صوت بلادرنگ (RT Voice) 5.4 Advanced Voice Interaction w SpeechLMs - 1 The Latency Challenge, RT Voice

  • 5.4 تعاملات پیشرفته: ۲. مدل LSLM، تشخیص پیشرفته نوبت گفتگو، شناسایی دوره تعاملی 5.4 Adv. - 2 LSLM Model, Advance Turn Detection,Interactive Period Recognition

  • کدها: ASR بلادرنگ با VAD و مدیریت وقفه‌ها + پیش‌بینی نوبت گفتگو در مکالمه Codes 5.4 -RT ASR w/ VAD & Interp. Handling + Turn-Taking Predn. in Conversation

  • کوییز: تعاملات صوتی پیشرفته با SpeechLMs Quiz 5.4 5.4 Advanced Voice Interaction with SpeechLMs

ماژول ۶: معیارهای ارزیابی و بنچ‌مارک مدل‌های SpeechLM Module 6: Evaluation Metrics and Benchmarking of SpeechLMs

  • مقدمه ماژول ۶: معیارهای ارزیابی و بنچ‌مارک مدل‌های SpeechLMs Introduction to Module 6 - Evaluation Metrics and Benchmarking of SpeechLMs

  • 6.1 معیارهای ارزیابی برای SpeechLMs: ۱. مقدمه، نرخ خطای کلمه (WER) 6.1 Evaluation metrics for SpeechLMs - 1 Introduction, Word Error Rate (WER)

  • 6.1 ارزیابی: ۲. شباهت گوینده (SS)، ۳. طبیعی بودن گفتار (MoS) و بنچ‌مارک‌گذاری 6.1 Eval.- 2 2. Speaker Similarity(SS),3. Speech Naturalness(MoS), Benchmarking

  • کدها: ارزیابی جامع ASR + چارچوب ارزیابی کیفیت TTS Codes 6.1 - Comprehensive ASR Evaluation + TTS Quality Evaluation Framework

  • کوییز: معیارهای رایج ارزیابی برای SpeechLMs Quiz 6.1 Common Evaluation metrics for SpeechLMs

  • 6.2 ارزیابی و بنچ‌مارک SpeechLMs: ۱. ASR و ۲. TTS 6.2 Evaluating & Benchmarking SpeechLMs - 1 1.ASR 2.TTS

  • 6.2 ارزیابی: ۳. تبدیل صدا (VC)، ۴. اپلیکیشن‌های غیرزبانی، ۵. شناسایی قصد (Intent) 6.2 Eval - 2 3. Voice Conversion (VC), 4.Paralinguistic Apps,5. Intent Recognit

  • 6.2 ارزیابی: ۶. تحلیل احساسات، ۷. ترجمه گفتار به گفتار و بنچ‌مارک‌گذاری 6.2 Eval - 3 6. Sentiment Analysis 7. Speech-to-Speech Translation, Benchmarking

  • کدها: ASR با شناسایی احساسات + ارزیابی TTS/VC با تحلیل ویژگی‌های آکوستیک Codes 6.2 - ASR w/ Emotin Recognition + TTS/VC Eval w/ Acoustic Feature Analys

  • کوییز: ارزیابی و بنچ‌مارک مدل‌های زبان گفتار (SpeechLMs) Quiz 6.2 Evaluating and Benchmarking Speech Language Models (SpeechLMs)

  • 6.3 دیتاست‌های بنچ‌مارک برای SpeechLMs: ۱. اهمیت دیتاست‌های بنچ‌مارک 6.3 Benchmarking Datasets fSpeechLMs - 1 The Importance of Benchmarking Dataset

  • 6.3 بنچ‌مارک: ۲. دیتاست‌های رایج بر اساس قابلیت و نحوه استفاده از آن‌ها 6.3 Bench. - 2 Commonly Used Benchmarking Datasets by Capability,Using Datasets

  • کدها: ASR سفارشی + چارچوب بنچ‌مارک TTS امن با SpeechT5 و Pyannote Codes 6.3 - Custom ASR + Secure TTS Benchmarkng Framewk w/ SpeechT5 and Pyannote

  • کوییز: دیتاست‌های بنچ‌مارک برای مدل‌های زبان گفتار (SpeechLMs) Quiz 6.3 Benchmarking Datasets for Speech Language Models (SpeechLMs)

  • 6.4 مقایسه SpeechLMs با سیستم‌های سنتی ASR، TTS و ترجمه: ۱. مقدمه 6.4 Comparing SpeechLMs w/ Traditional ASR, TTS, & Translation System - 1 Intro

  • 6.4 مقایسه: ۲. SpeechLM یکپارچه، قابلیت‌های ادغام شده و متدهای بنچ‌مارک 6.4 Comparing - 2 Unified SpeechLM , Integrated Capab.Benchmarking Methodologies

  • کدها: مقایسه SpeechLM در مقابل سیستم سنتی ASR + حفظ احساسات Codes 6.4 Comparing SpeechLM vs Traditional ASR System + Emotion Preservation

  • کوییز: مقایسه SpeechLMs با سیستم‌های سنتی ASR، TTS و ترجمه Quiz 6.4 Comparing SpeechLMs w/ Traditional ASR, TTS, and Translation System

ماژول ۷: چالش‌ها و مسیرهای آینده در پژوهش‌های SpeechLM Module 7: Challenges and Future Directions in SpeechLM Research

  • مقدمه ماژول ۷: چالش‌ها و مسیرهای آینده در پژوهش‌های SpeechLM Introduction to Module 7 - Challenges and Future Directions in SpeechLM Research

  • 7.1 درک انتخاب اجزا در SpeechLMs: ۱. اجزای کلیدی SpeechLMs 7.1 Understanding Component Choices in SpeechLMs - 1 Key Components SpeechLMs

  • 7.1 درک انتخاب‌ها: ۲. اثر متقابل و اهمیت انتخاب اجزا 7.1 Understanding Choices - 2 The Interplay and Importance of Component Choices

  • کدها: مقایسه استخراج‌کننده‌های ویژگی گفتار + چارچوب مقایسه ووکرها Codes 7.1 - Comparing Speech Feature Extractor + Vocoder Comparison Framework

  • کوییز: درک انتخاب اجزا در مدل‌های زبان گفتار Quiz 7.1 Understanding Component Choices in Speech Language Models

  • 7.2 آموزش End-to-End مدل‌های SpeechLM: ۱. درک آموزش End-to-End 7.2 End-to-End Training of SpeechLMs - 1 Understanding End-to-End Training

  • 7.2 آموزش: ۲. اجزای اصلی، موتور SpeechLM و مزیت عملکردی E2E 7.2 End-to - 2 Core Components -The SpeechLM Engine, E2E The Performance Edge

  • کدها: آموزش شناسایی گفتار End-to-End + آموزش Lite Tacotron TTS Codes 7.2 - End-to-End Speech Recognition Training + Lite Tacotron TTS Training

  • کوییز: آموزش End-to-End اجزای SpeechLM Quiz 7.2 End-to-End Training of SpeechLM Components

  • 7.3 مقیاس‌بندی SpeechLMs برای اندازه و داده‌های بزرگتر: ۱. اثر مقیاس‌بندی سه‌گانه 7.3 Scaling SpeechLMs to Larger Sizes and Datasets - 1 Triple Scaling Effect

  • 7.3 مقیاس‌بندی: ۲. مکانیسم‌های مقیاس‌بندی داده‌ها، سه‌گانه مقیاس‌بندی SpeechLM و جمع‌بندی 7.3 Scaling - 2 Data Scaling Mechanics, The SpeechLM Scaling Triad, Summary

  • کدها: آموزش مقیاس‌پذیر شناسایی گفتار + کشینگ دیتاست و Bucketing پویا Codes 7.3 - Scalable Speech Recog Training + Dataset caching, dynamic Bucketing

  • کوییز: مقیاس‌بندی مدل‌های زبان گفتار برای اندازه و داده‌های بزرگتر Quiz 7.3 Scaling Speech Language Models to Larger Sizes and Datasets

  • 7.4 بهبود مدل‌سازی اطلاعات غیرزبانی در SpeechLMs: ۱. چالش‌ها 7.4 Improving Modeling Paralinguistic Information in SpeechLMs - 1 Challenges

  • 7.4 بهبود: ۲. تکنیک‌های پیشرفته غیرزبانی و ParalinGPT چندوجهی 7.4 Improving - 2 Advanced Paralinguistic Techniques, Multimodal ParalinGPT

  • کدها: شناسایی احساسات با مدل HuBERT + سنتز با کنترل آهنگ صدای FastPitch Codes 7.2 - Emotion Recog w/ HuBERT Model + Prosody-Control Synthesis FastPitch

  • کوییز: بهبود مدل‌سازی اطلاعات غیرزبانی در SpeechLMs Quiz 7.4 Improving Modeling of Paralinguistic Information in SpeechLMs

  • 7.5 مدیریت زبان‌های کم‌منبع: ۱. یادگیری انتقالی و یادگیری خود-نظارتی 7.5 Handling Low-Resource Languages - 1 Transfer Learning ,Self-Supervised

  • 7.5 مدیریت: ۲. یادگیری نیمه‌نظارتی و بهره‌برداری از زبان‌های مرتبط 7.5 Handling - 2 Semi-Supervised Learning, Leveraging Related Languages

  • کدها: تنظیم دقیق XLS-R برای ASR + طبقه‌بندی احساسات با SpecAugment Codes 7.5 - Fine-Tuning XLS-R for ASR + Emotion Classification with SpecAugment

  • کوییز: مدیریت زبان‌های کم‌منبع برای مدل‌های زبان گفتار Quiz 7.5 Handling Low-Resource Languages for Speech Language Models

  • 7.6 توسعه SpeechLMهای بلادرنگ و دوطرفه (Duplex): ۱. معماری Duplex بلادرنگ 7.6 Developing Real-Time and Duplex SpeechLMs - 1 Real-Time Duplex Architecture

  • 7.6 توسعه: ۲. معماری‌های استریمینگ و بهینه‌سازی مدل، VAD و Barge-In 7.6 Developing - 2 Streaming Architectures & Model Optimization, VAD, Barge-In

  • کدها: ASR استریمینگ با Causal Transformer تاخیر کم + سیستم VAD برای Barge-In Codes 7.6 Streaming ASR w/ Causal Transformer Low-Latency + VAD for Barge-In Sys

  • کوییز: توسعه SpeechLMهای بلادرنگ و دوطرفه Quiz 7.6 Developing Real-Time and Duplex SpeechLMs

  • 7.7 پرداختن به مسائل امنیتی و اخلاقی در SpeechLMs: ۱. ریسک‌های امنیتی SpeechLM 7.7 Addressing Safety & Ethical Concerns in SpeechLMs - 1 SpeechLM Safety Risks

  • 7.7 امنیت: ۲. لایه داده و مدل، لایه امنیت و حریم خصوصی، تضمین پاسخگویی 7.7 Address - 2 Data & Model Layer, Security & Privacy Layer, Ensuring Accountab

  • کدها: ارزیابی سوگیری ASR در لهجه‌ها + نظارت بر TTS با فیلتر سمیت (Toxicity) Codes 7.7 Bias Eval ASR Accent Fairness + TTS Moderation with Toxicity Filterng

  • کوییز: پرداختن به مسائل امنیتی و اخلاقی در SpeechLMs Quiz 7.7 Addressing Safety and Ethical Concerns in SpeechLMs

نمایش نظرات

آموزش تسلط بر هوش مصنوعی صوت: از ASR تا هوش مصنوعی احساسات و کلونینگ صدا
جزییات دوره
19.5 hours
111
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
7,879
4.5 از 5
دارد
دارد
دارد
Vinit Singh
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Vinit Singh Vinit Singh

مشاور و مدرس هوش مصنوعی