آموزش پیش‌پردازش داده‌های غیرساختاریافته برای مدل‌های زبانی بزرگ (LLM) و سیستم‌های RAG - آخرین آپدیت

دانلود Preprocessing Unstructured Data for LLMs and RAG Systems

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: به‌روزرسانی شده در می ۲۰۲۵. این دوره اکنون دارای قابلیت Coursera Coach است! روشی هوشمندتر برای یادگیری با گفتگوهای تعاملی و در لحظه که به شما کمک می‌کند دانش خود را آزمایش کنید، پیش‌فرض‌ها را به چالش بکشید و با پیشروی در دوره، درک خود را عمیق‌تر کنید. با تسلط بر تکنیک‌های پیش‌پردازش برای مدل‌های زبانی بزرگ (LLMs) و سیستم‌های تولید تقویت‌شده با بازیابی (RAG)، پتانسیل کامل داده‌های غیرساختاریافته را آزاد کنید. این دوره جامع شما را با مهارت‌های لازم برای آماده‌سازی داده‌های غیرساختاریافته جهت کاربردهای پیشرفته هوش مصنوعی مجهز می‌کند و ورودی‌هایی با کیفیت بالا برای دستیابی به نتایج بهتر تضمین می‌نماید. از درک پیچیدگی‌های پیش‌پردازش داده‌ها تا پروژه‌های عملی، شما بینش‌های ارزشمندی درباره چارچوب‌ها و ابزارهای پیشرو به دست خواهید آورد. سفر شما با راه‌اندازی یک محیط توسعه قدرتمند، شامل حساب‌های API و یکپارچه‌سازی‌های کلیدی آغاز می‌شود. سپس به جزئیات پیش‌پردازش داده‌های غیرساختاریافته می‌پردازید و چالش‌هایی مانند نرمال‌سازی داده‌ها، تکه‌بندی (Chunking) و استخراج متاداده‌ها را مدیریت خواهید کرد. با استفاده از Unstructured Framework، شما به طور بهینه اسناد HTML، PDF و PPTX را پیش‌پردازش کرده و ساختار بهینه داده‌ها را تضمین می‌کنید. این دوره بر کاربردهای دنیای واقعی تأکید دارد و تجربه عملی در زمینه شباهت معنایی (Semantic Similarity)، پایگاه‌های داده برداری (Vector Databases) و استراتژی‌های جستجوی ترکیبی ارائه می‌دهد. شما تکنیک‌های پیشرفته تشخیص چیدمان سند را با بهره‌گیری از ابزارهایی مانند Visual Transformers و LangChain برای پیش‌پردازش اسناد پیچیده و استخراج بینش‌های معنادار بررسی خواهید کرد. در نهایت، تمام این مهارت‌ها را در ساخت یک سیستم RAG کاملاً کاربردی به کار می‌گیرید و تکنیک‌های آموخته شده را برای تعامل پویا با داده‌ها ادغام می‌کنید. این دوره برای مهندسان داده، متخصصان هوش مصنوعی و توسعه‌دهندگانی که به دنبال ارتقای مهارت‌های پیش‌پردازش خود هستند، ایده‌آل است. اگرچه آشنایی با پایتون و استفاده‌های پایه از API مفید است، اما ساختار دوره به‌گونه‌ای است که هم برای افراد سطح متوسط و هم برای کسانی که به دنبال تخصص پیشرفته هستند، مناسب باشد.

سرفصل ها و درس ها

مقدمه Introduction

  • معارفه، معرفی دوره و پیش‌نیازها Introductions and What the Course is About and Prerequisites

  • ساختار دوره Course Structure

راه‌اندازی محیط توسعه Development Environment Setup

  • مرور کلی راه‌اندازی محیط توسعه Development Environment Setup - Overview

  • راه‌اندازی حساب OpenAI API و دریافت کلید API Setup OpenAI API Account and API Key

  • راه‌اندازی حساب Unstructured و دریافت کلید API رایگان Setup the Unstructured Account and FREE API Key

  • اجرای آزمایشی چارچوب Unstructured Unstructured Framework Test Run

بررسی عمیق پیش‌پردازش داده‌ها برای LLMها Data Preprocessing for LLMs - Deep Dive

  • بررسی عمیق پیش‌پردازش داده‌ها: مرور کلی Data Preprocessing Deep Dive - Overview

  • پیش‌پردازش داده‌ها برای LLMها: چرا پیش‌پردازش سخت است؟ Data Preprocessing for LLMs Overview - Why Data Preprocessing is Hard

  • چالش‌های داده‌های غیرساختاریافته Challenges with Unstructured Data

  • نحوه عملکرد استخراج محتوا: پاک‌سازی و نرمال‌سازی داده‌ها How Content Extraction Works - Cleaning and Data Normalization

  • تکه‌بندی، ساختاردهی داده‌ها و ارکستراسیون جریان کاری Chunking and Structuring Data and Workflow Orchestration

  • چارچوب Unstructured: بررسی کلی جریان کاری The Unstructured Framework - The Whole Workflow and Overview

تمرین عملی: چارچوب Unstructured و پیش‌پردازش اسناد HTML، PDF و PPTX Hands-on: The Unstructured Framework - Preprocessing HTML, PDFs & PPTX Documents

  • تمرین عملی: پیش‌پردازش فایل PDF و تحلیل داده‌های JSON استخراج شده Hands-on: Preprocessing a PDF File and Dissecting the Extracted JSON Data

  • تمرین عملی: پیش‌پردازش فایل PPTX (پاورپوینت) Hands-on: Preprocessing a PPTX (PowerPoint) File

  • تمرین عملی: پیش‌پردازش فایل HTML Hands-on: Preprocessing an HTML File

  • مزایای نرمال‌سازی محتوا: جمع‌بندی Benefits of Normalizing Content - Summary

تکه‌بندی (Chunking) و استخراج متاداده‌ها Chunking and Metadata Extraction

  • تکه‌بندی محتوا و استخراج متاداده‌ها: مرور کلی Content Chunking and Metadata Extraction - Overview

  • یافتن المان‌های مرتبط با فصل‌ها: تمرین عملی Finding Elements Associated with Chapters - Hands-on

  • شباهت معنایی: جستجوی ترکیبی و ذخیره اسناد در پایگاه داده برداری Semantic Similarity - Hybrid Search and Saving Documents to Vector Database

  • بازسازی کد: جلوگیری از پیش‌پردازش مکرر اسناد Code Restructuring - Avoid Multiple Document Preprocessing

  • چالش‌های شباهت معنایی: معیارهای تازگی اطلاعات Semantic Similarity Challenges - Information Recency Criteria

  • تکه‌بندی برای المان‌های سند و مزایای آن: بررسی کامل Chunking for Document Elements and Benefits - Full Overview

  • تکه‌بندی محتوای سند: تمرین عملی Chunking Document Content - Hands-on

  • جمع‌بندی Summary

پیش‌پردازش اسناد پیچیده: PDFها و تصاویر Preprocessing Complex Documents - PDFs and Images

  • پیش‌پردازش اسناد پیچیده: PDFها و تصاویر: مرور کلی Preprocessing Complex Documents - PDFs and Images - Overview

  • روش‌های تحلیل تصویر سند: تشخیص‌دهنده چیدمان سند (DLD) و Visual Transformer Document Image Analysis Methods: Document Layout Detector and Visual Transformer

  • مزایا و معایب ViT و DLD Advantages and Disadvantages of ViT and DLD

  • پیش‌پردازش سریع فایل‌های HTML و PDF Preprocessing HTML and PDF files - Fast

  • پیش‌پردازش با تشخیص چیدمان سند و مقایسه نتایج Preprocessing with Document Layout Detection and Comparing the Results

  • استخراج محتوای جدول‌ها: تمرین عملی Table Content Extraction - Hands-on

  • خلاصه‌سازی داده‌های جدولی با LangChain: تمرین عملی Summarizing the Table Data with LangChain - Hands-on

ساخت سیستم RAG با استفاده از تکنیک‌های آموخته شده: مورد پژوهی کامل Build a RAG System Using Learned Techniques - Full Use Case

  • جمع‌بندی نهایی: ساخت سیستم RAG با استفاده از آموخته‌ها: مرور کلی Put it All Together - Build a RAG System Using What You've Learned - Overview

  • پیش‌پردازش فایل PDF و نمایش محتوای جدولی: بخش اول Preprocessing a PDF File and Showing Tabular Content as Well - Part 1

  • فیلتر کردن مراجع و سربرگ‌ها از PDF: بخش دوم Filtering out References and Headers from PDF - Part 2

  • پیش‌پردازش فایل‌های PPTX و MD و ذخیره المان‌ها در پایگاه داده برداری: بخش سوم Preprocess PPTX & MD File and Save Document Elements to Vector Database: Part 3

  • چت با اسناد شخصی (PDF): بخش چهارم Chat with Your Own Documents - PDF - Part 4

  • چت با اسناد شخصی (MD و PPTX): بخش نهایی Chat with Your Own Documents - MD and PPTX Documents - Final

جمع‌بندی Wrap up

  • گام‌های بعدی What's Next

نمایش نظرات

آموزش پیش‌پردازش داده‌های غیرساختاریافته برای مدل‌های زبانی بزرگ (LLM) و سیستم‌های RAG
جزییات دوره
5h 56m
38
(آخرین آپدیت)
314
- از 5
دارد
دارد
دارد
Chris Croft
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Chris Croft Chris Croft

مربی مدیریت، سخنران، نویسنده