دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش پیش‌پردازش داده‌های غیرساختاریافته برای مدل‌های زبانی بزرگ (LLM) و سیستم‌های RAG - آخرین آپدیت

دانلود Preprocessing Unstructured Data for LLMs and RAG Systems

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: به‌روزرسانی شده در می ۲۰۲۵. این دوره اکنون دارای قابلیت Coursera Coach است! روشی هوشمندتر برای یادگیری با گفتگوهای تعاملی و در لحظه که به شما کمک می‌کند دانش خود را آزمایش کنید، پیش‌فرض‌ها را به چالش بکشید و با پیشروی در دوره، درک خود را عمیق‌تر کنید. با تسلط بر تکنیک‌های پیش‌پردازش برای مدل‌های زبانی بزرگ (LLMs) و سیستم‌های تولید تقویت‌شده با بازیابی (RAG)، پتانسیل کامل داده‌های غیرساختاریافته را آزاد کنید. این دوره جامع شما را با مهارت‌های لازم برای آماده‌سازی داده‌های غیرساختاریافته جهت کاربردهای پیشرفته هوش مصنوعی مجهز می‌کند و ورودی‌هایی با کیفیت بالا برای دستیابی به نتایج بهتر تضمین می‌نماید. از درک پیچیدگی‌های پیش‌پردازش داده‌ها تا پروژه‌های عملی، شما بینش‌های ارزشمندی درباره چارچوب‌ها و ابزارهای پیشرو به دست خواهید آورد. سفر شما با راه‌اندازی یک محیط توسعه قدرتمند، شامل حساب‌های API و یکپارچه‌سازی‌های کلیدی آغاز می‌شود. سپس به جزئیات پیش‌پردازش داده‌های غیرساختاریافته می‌پردازید و چالش‌هایی مانند نرمال‌سازی داده‌ها، تکه‌بندی (Chunking) و استخراج متاداده‌ها را مدیریت خواهید کرد. با استفاده از Unstructured Framework، شما به طور بهینه اسناد HTML، PDF و PPTX را پیش‌پردازش کرده و ساختار بهینه داده‌ها را تضمین می‌کنید. این دوره بر کاربردهای دنیای واقعی تأکید دارد و تجربه عملی در زمینه شباهت معنایی (Semantic Similarity)، پایگاه‌های داده برداری (Vector Databases) و استراتژی‌های جستجوی ترکیبی ارائه می‌دهد. شما تکنیک‌های پیشرفته تشخیص چیدمان سند را با بهره‌گیری از ابزارهایی مانند Visual Transformers و LangChain برای پیش‌پردازش اسناد پیچیده و استخراج بینش‌های معنادار بررسی خواهید کرد. در نهایت، تمام این مهارت‌ها را در ساخت یک سیستم RAG کاملاً کاربردی به کار می‌گیرید و تکنیک‌های آموخته شده را برای تعامل پویا با داده‌ها ادغام می‌کنید. این دوره برای مهندسان داده، متخصصان هوش مصنوعی و توسعه‌دهندگانی که به دنبال ارتقای مهارت‌های پیش‌پردازش خود هستند، ایده‌آل است. اگرچه آشنایی با پایتون و استفاده‌های پایه از API مفید است، اما ساختار دوره به‌گونه‌ای است که هم برای افراد سطح متوسط و هم برای کسانی که به دنبال تخصص پیشرفته هستند، مناسب باشد.

سرفصل ها و درس ها

مقدمه Introduction

معارفه، معرفی دوره و پیش‌نیازها Introductions and What the Course is About and Prerequisites
ساختار دوره Course Structure

راه‌اندازی محیط توسعه Development Environment Setup

مرور کلی راه‌اندازی محیط توسعه Development Environment Setup - Overview
راه‌اندازی حساب OpenAI API و دریافت کلید API Setup OpenAI API Account and API Key
راه‌اندازی حساب Unstructured و دریافت کلید API رایگان Setup the Unstructured Account and FREE API Key
اجرای آزمایشی چارچوب Unstructured Unstructured Framework Test Run

بررسی عمیق پیش‌پردازش داده‌ها برای LLMها Data Preprocessing for LLMs - Deep Dive

بررسی عمیق پیش‌پردازش داده‌ها: مرور کلی Data Preprocessing Deep Dive - Overview
پیش‌پردازش داده‌ها برای LLMها: چرا پیش‌پردازش سخت است؟ Data Preprocessing for LLMs Overview - Why Data Preprocessing is Hard
چالش‌های داده‌های غیرساختاریافته Challenges with Unstructured Data
نحوه عملکرد استخراج محتوا: پاک‌سازی و نرمال‌سازی داده‌ها How Content Extraction Works - Cleaning and Data Normalization
تکه‌بندی، ساختاردهی داده‌ها و ارکستراسیون جریان کاری Chunking and Structuring Data and Workflow Orchestration
چارچوب Unstructured: بررسی کلی جریان کاری The Unstructured Framework - The Whole Workflow and Overview

تمرین عملی: چارچوب Unstructured و پیش‌پردازش اسناد HTML، PDF و PPTX Hands-on: The Unstructured Framework - Preprocessing HTML, PDFs & PPTX Documents

تمرین عملی: پیش‌پردازش فایل PDF و تحلیل داده‌های JSON استخراج شده Hands-on: Preprocessing a PDF File and Dissecting the Extracted JSON Data
تمرین عملی: پیش‌پردازش فایل PPTX (پاورپوینت) Hands-on: Preprocessing a PPTX (PowerPoint) File
تمرین عملی: پیش‌پردازش فایل HTML Hands-on: Preprocessing an HTML File
مزایای نرمال‌سازی محتوا: جمع‌بندی Benefits of Normalizing Content - Summary

تکه‌بندی (Chunking) و استخراج متاداده‌ها Chunking and Metadata Extraction

تکه‌بندی محتوا و استخراج متاداده‌ها: مرور کلی Content Chunking and Metadata Extraction - Overview
یافتن المان‌های مرتبط با فصل‌ها: تمرین عملی Finding Elements Associated with Chapters - Hands-on
شباهت معنایی: جستجوی ترکیبی و ذخیره اسناد در پایگاه داده برداری Semantic Similarity - Hybrid Search and Saving Documents to Vector Database
بازسازی کد: جلوگیری از پیش‌پردازش مکرر اسناد Code Restructuring - Avoid Multiple Document Preprocessing
چالش‌های شباهت معنایی: معیارهای تازگی اطلاعات Semantic Similarity Challenges - Information Recency Criteria
تکه‌بندی برای المان‌های سند و مزایای آن: بررسی کامل Chunking for Document Elements and Benefits - Full Overview
تکه‌بندی محتوای سند: تمرین عملی Chunking Document Content - Hands-on
جمع‌بندی Summary

پیش‌پردازش اسناد پیچیده: PDFها و تصاویر Preprocessing Complex Documents - PDFs and Images

پیش‌پردازش اسناد پیچیده: PDFها و تصاویر: مرور کلی Preprocessing Complex Documents - PDFs and Images - Overview
روش‌های تحلیل تصویر سند: تشخیص‌دهنده چیدمان سند (DLD) و Visual Transformer Document Image Analysis Methods: Document Layout Detector and Visual Transformer
مزایا و معایب ViT و DLD Advantages and Disadvantages of ViT and DLD
پیش‌پردازش سریع فایل‌های HTML و PDF Preprocessing HTML and PDF files - Fast
پیش‌پردازش با تشخیص چیدمان سند و مقایسه نتایج Preprocessing with Document Layout Detection and Comparing the Results
استخراج محتوای جدول‌ها: تمرین عملی Table Content Extraction - Hands-on
خلاصه‌سازی داده‌های جدولی با LangChain: تمرین عملی Summarizing the Table Data with LangChain - Hands-on

ساخت سیستم RAG با استفاده از تکنیک‌های آموخته شده: مورد پژوهی کامل Build a RAG System Using Learned Techniques - Full Use Case

جمع‌بندی نهایی: ساخت سیستم RAG با استفاده از آموخته‌ها: مرور کلی Put it All Together - Build a RAG System Using What You've Learned - Overview
پیش‌پردازش فایل PDF و نمایش محتوای جدولی: بخش اول Preprocessing a PDF File and Showing Tabular Content as Well - Part 1
فیلتر کردن مراجع و سربرگ‌ها از PDF: بخش دوم Filtering out References and Headers from PDF - Part 2
پیش‌پردازش فایل‌های PPTX و MD و ذخیره المان‌ها در پایگاه داده برداری: بخش سوم Preprocess PPTX & MD File and Save Document Elements to Vector Database: Part 3
چت با اسناد شخصی (PDF): بخش چهارم Chat with Your Own Documents - PDF - Part 4
چت با اسناد شخصی (MD و PPTX): بخش نهایی Chat with Your Own Documents - MD and PPTX Documents - Final

جمع‌بندی Wrap up

گام‌های بعدی What's Next

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش پیش‌پردازش داده‌های غیرساختاریافته برای مدل‌های زبانی بزرگ (LLM) و سیستم‌های RAG

جزییات دوره

زمان دوره: 5h 56m

تعداد ویدیو ها: 38

شرکت: Coursera (کورسرا)

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع : 314

امتیاز مرجع: - از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Chris Croft

لینک کوتاه این دوره

https://donyad.com/d/7f29fc

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Embeddings Application Frameworks Vector Databases LLM Application LangChain Retrieval-Augmented Generation Data Quality Vision Transformer (ViT)

آموزش پیش‌پردازش داده‌های غیرساختاریافته برای مدل‌های زبانی بزرگ (LLM) و سیستم‌های RAG - آخرین آپدیت

دانلود Preprocessing Unstructured Data for LLMs and RAG Systems

مقدمه Introduction

معارفه، معرفی دوره و پیش‌نیازها Introductions and What the Course is About and Prerequisites

ساختار دوره Course Structure

راه‌اندازی محیط توسعه Development Environment Setup

مرور کلی راه‌اندازی محیط توسعه Development Environment Setup - Overview

راه‌اندازی حساب OpenAI API و دریافت کلید API Setup OpenAI API Account and API Key

راه‌اندازی حساب Unstructured و دریافت کلید API رایگان Setup the Unstructured Account and FREE API Key

اجرای آزمایشی چارچوب Unstructured Unstructured Framework Test Run

بررسی عمیق پیش‌پردازش داده‌ها برای LLMها Data Preprocessing for LLMs - Deep Dive

بررسی عمیق پیش‌پردازش داده‌ها: مرور کلی Data Preprocessing Deep Dive - Overview

پیش‌پردازش داده‌ها برای LLMها: چرا پیش‌پردازش سخت است؟ Data Preprocessing for LLMs Overview - Why Data Preprocessing is Hard

چالش‌های داده‌های غیرساختاریافته Challenges with Unstructured Data

نحوه عملکرد استخراج محتوا: پاک‌سازی و نرمال‌سازی داده‌ها How Content Extraction Works - Cleaning and Data Normalization

تکه‌بندی، ساختاردهی داده‌ها و ارکستراسیون جریان کاری Chunking and Structuring Data and Workflow Orchestration

چارچوب Unstructured: بررسی کلی جریان کاری The Unstructured Framework - The Whole Workflow and Overview

تمرین عملی: چارچوب Unstructured و پیش‌پردازش اسناد HTML، PDF و PPTX Hands-on: The Unstructured Framework - Preprocessing HTML, PDFs & PPTX Documents

تمرین عملی: پیش‌پردازش فایل PDF و تحلیل داده‌های JSON استخراج شده Hands-on: Preprocessing a PDF File and Dissecting the Extracted JSON Data

تمرین عملی: پیش‌پردازش فایل PPTX (پاورپوینت) Hands-on: Preprocessing a PPTX (PowerPoint) File

تمرین عملی: پیش‌پردازش فایل HTML Hands-on: Preprocessing an HTML File

مزایای نرمال‌سازی محتوا: جمع‌بندی Benefits of Normalizing Content - Summary

تکه‌بندی (Chunking) و استخراج متاداده‌ها Chunking and Metadata Extraction

تکه‌بندی محتوا و استخراج متاداده‌ها: مرور کلی Content Chunking and Metadata Extraction - Overview

یافتن المان‌های مرتبط با فصل‌ها: تمرین عملی Finding Elements Associated with Chapters - Hands-on

شباهت معنایی: جستجوی ترکیبی و ذخیره اسناد در پایگاه داده برداری Semantic Similarity - Hybrid Search and Saving Documents to Vector Database

بازسازی کد: جلوگیری از پیش‌پردازش مکرر اسناد Code Restructuring - Avoid Multiple Document Preprocessing

چالش‌های شباهت معنایی: معیارهای تازگی اطلاعات Semantic Similarity Challenges - Information Recency Criteria

تکه‌بندی برای المان‌های سند و مزایای آن: بررسی کامل Chunking for Document Elements and Benefits - Full Overview

تکه‌بندی محتوای سند: تمرین عملی Chunking Document Content - Hands-on

جمع‌بندی Summary

پیش‌پردازش اسناد پیچیده: PDFها و تصاویر Preprocessing Complex Documents - PDFs and Images

پیش‌پردازش اسناد پیچیده: PDFها و تصاویر: مرور کلی Preprocessing Complex Documents - PDFs and Images - Overview

روش‌های تحلیل تصویر سند: تشخیص‌دهنده چیدمان سند (DLD) و Visual Transformer Document Image Analysis Methods: Document Layout Detector and Visual Transformer

مزایا و معایب ViT و DLD Advantages and Disadvantages of ViT and DLD

پیش‌پردازش سریع فایل‌های HTML و PDF Preprocessing HTML and PDF files - Fast

پیش‌پردازش با تشخیص چیدمان سند و مقایسه نتایج Preprocessing with Document Layout Detection and Comparing the Results

استخراج محتوای جدول‌ها: تمرین عملی Table Content Extraction - Hands-on

خلاصه‌سازی داده‌های جدولی با LangChain: تمرین عملی Summarizing the Table Data with LangChain - Hands-on

ساخت سیستم RAG با استفاده از تکنیک‌های آموخته شده: مورد پژوهی کامل Build a RAG System Using Learned Techniques - Full Use Case

جمع‌بندی نهایی: ساخت سیستم RAG با استفاده از آموخته‌ها: مرور کلی Put it All Together - Build a RAG System Using What You've Learned - Overview

پیش‌پردازش فایل PDF و نمایش محتوای جدولی: بخش اول Preprocessing a PDF File and Showing Tabular Content as Well - Part 1

فیلتر کردن مراجع و سربرگ‌ها از PDF: بخش دوم Filtering out References and Headers from PDF - Part 2

پیش‌پردازش فایل‌های PPTX و MD و ذخیره المان‌ها در پایگاه داده برداری: بخش سوم Preprocess PPTX & MD File and Save Document Elements to Vector Database: Part 3

چت با اسناد شخصی (PDF): بخش چهارم Chat with Your Own Documents - PDF - Part 4

چت با اسناد شخصی (MD و PPTX): بخش نهایی Chat with Your Own Documents - MD and PPTX Documents - Final

جمع‌بندی Wrap up

گام‌های بعدی What's Next

نمایش نظرات

https://donyad.com/d/7f29fc

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar