پیش پردازش داده های بدون ساختار برای برنامه های RAG و LLM - [جدید]

Unstructured Data Preprocessing for RAG Apps & LLMs - [NEW]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: تسلط بر داده‌های بدون ساختار با تکنیک‌های ViT، فراداده، تکه‌شکن پیشرفته، جستجوی ترکیبی، و تکنیک‌های RAG: آموزش استخراج، پردازش و عادی‌سازی داده‌ها از فرمت‌های مختلف اسناد، از جمله PDF، پاورپوینت‌ها: نحوه غنی‌سازی را بیاموزید. اسنادی با فراداده جامع، امکان بازیابی داده‌های دقیق‌تر و مرتبط‌تر را امکان‌پذیر می‌سازد. استفاده از مدل‌های چشم‌انداز و تکنیک‌های قطعه‌سازی: مهارت‌های عملی در استفاده از مدل‌های بینایی مانند ViT و روش‌های تکه‌شکن پیشرفته برای مدیریت، تجزیه و تحلیل ساخت و استقرار موتورهای جستجوی ترکیبی: توسعه و استقرار موتورهای جستجوی ترکیبی که ترکیب بازیابی مبتنی بر محتوا با پرس و جوهای مبتنی بر فراداده پیش نیازها: دانش برنامه نویسی پایه: آشنایی با مفاهیم برنامه نویسی، به ویژه در پایتون و جاوا اسکریپت، به فراگیران کمک می کند تا محتوای دوره را به طور موثرتری درک کرده و به کار گیرند. آشنایی با مفاهیم هوش مصنوعی: درک اولیه هوش مصنوعی، LLM یا یادگیری ماشینی، درک پیش پردازش داده ها و مفاهیم RAG را که در این دوره آموزش داده شده اند، آسان تر می کند.

قفل داده‌های بدون ساختار را باز کنید و برنامه‌های مبتنی بر هوش مصنوعی خود را با این دوره جامع در مورد تبدیل داده‌های بدون ساختار به بینش‌های عملی با استفاده از تکنیک‌های پیشرفته ارتقا دهید. چه یک توسعه‌دهنده، دانشمند داده یا علاقه‌مند به هوش مصنوعی باشید، این دوره شما را به مهارت‌هایی برای استخراج، پردازش و عادی‌سازی محتوا از فرمت‌های اسناد مختلف-از جمله PDF، پاورپوینت، فایل‌های Word، صفحات HTML، جداول، و تصاویر مجهز می‌کند. —آماده سازی داده های خود برای سیستم های RAG پیچیده و مدل های زبان بزرگ (LLM).

در این دوره آموزشی، شما عمیقاً به چارچوب بدون ساختار، ابزاری قدرتمند برای مدیریت و عادی سازی داده های بدون ساختار، می پردازید. می‌خواهم یاد بگیرید که چگونه اسناد خود را با ابرداده غنی کنید، تکنیک‌های تکه‌بندی پیشرفته را اعمال کنید و از روش‌های جستجوی ترکیبی برای بهبود فرآیندهای بازیابی و تولید داده‌های خود استفاده کنید. با تمرکز بر برنامه های کاربردی دنیای واقعی، تجربه عملی در پیش پردازش اسناد با استفاده از مدل های بینایی مانند ViT، استخراج اطلاعات ارزشمند از طریق ترانسفورماتورهای جدولی، و ادغام یکپارچه این اجزا در برنامه های کاربردی RAG خود به دست خواهید آورد.

آنچه یاد خواهید گرفت:

  • بر چارچوب بدون ساختار مسلط شوید: نحوه استفاده از چارچوب بدون ساختار را برای مدیریت و عادی سازی انواع داده ها، بهینه سازی آنها برای استفاده در سیستم های RAG و LLMها بدانید.

  • استخراج فراداده پیشرفته: یاد بگیرید که اسناد خود را با فراداده های جامع غنی کنید، دقت جستجو و ارتباط را در برنامه های کاربردی مبتنی بر هوش مصنوعی بهبود بخشید.

  • تکنیک‌های پیشرفته‌ای را اجرا کنید: از روش‌های تکه‌شکن پیشرفته برای مدیریت و پردازش مجموعه‌های داده بزرگ استفاده کنید و از پردازش و بازیابی کارآمد داده‌ها اطمینان حاصل کنید.

  • از قابلیت‌های جستجوی ترکیبی استفاده کنید: تکنیک‌های جستجوی ترکیبی را کاوش کنید که ابرداده و بازیابی مبتنی بر محتوا را ترکیب می‌کند و عملکرد موتورهای جستجوی شما را افزایش می‌دهد.

  • تجزیه و تحلیل تصویر سند با ViT: از مدل‌های بینایی مانند ViT و ترانسفورماتورهای جدول برای تجزیه و تحلیل و پیش پردازش تصاویر سند استفاده کنید، و توانایی شما برای استخراج و استفاده از داده‌های بدون ساختار را افزایش می‌دهد.

چرا این دوره؟

این دوره برای حرفه‌ای‌هایی طراحی شده است که می‌خواهند از پردازش داده‌های اولیه فراتر رفته و به تکنیک‌های پیشرفته برای مدیریت داده‌های بدون ساختار در سیستم‌های RAG بپردازند. از طریق مجموعه‌ای از پروژه‌های عملی، تخصص لازم برای ساخت و استقرار موتورهای داده‌ای قوی و مقیاس‌پذیر را به دست خواهید آورد که می‌توانند پرس‌و‌جوهای پیچیده را مدیریت کرده و پاسخ‌های مرتبط با زمینه را ایجاد کنند. خواه به دنبال ارتقاء مجموعه مهارت های فعلی خود باشید یا به دنبال کشف مرزهای جدید در توسعه مبتنی بر هوش مصنوعی باشید، این دوره دانش و تجربه عملی مورد نیاز برای موفقیت را ارائه می دهد.

به ما بپیوندید و در هنر تبدیل داده‌های بدون ساختار به بینش‌های قدرتمند و ساختاریافته برای سیستم‌های RAG و برنامه‌های LLM خود مسلط شوید!


سرفصل ها و درس ها

مقدمه Introduction

  • مقدمه ها و مطالب دوره و پیش نیازها Introductions and What the Course is About and Prerequisites

  • ساختار دوره Course Structure

کد منبع را دانلود کنید Download Source Code

  • کد منبع Source code

  • اسلایدهای دوره Course Slides

راه اندازی محیط توسعه Development Environment Setup

  • راه اندازی محیط توسعه - بررسی اجمالی Development Environment Setup - Overview

  • حساب OpenAI API و کلید API را راه اندازی کنید Setup OpenAI API Account and API Key

  • حساب بدون ساختار و کلید API رایگان را تنظیم کنید Setup the Unstructured Account and FREE API Key

  • اجرای آزمایشی چارچوب بدون ساختار Unstructured Framework Test Run

پیش پردازش داده برای LLMs - Deep Dive Data Preprocessing for LLMs - Deep Dive

  • پیش پردازش داده ها Deep Dive - بررسی اجمالی Data Preprocessing Deep Dive - Overview

  • بررسی اجمالی پیش پردازش داده برای LLM - چرا پیش پردازش داده ها سخت است Data Preprocessing for LLMs Overview - Why Data Preprocessing is Hard

  • چالش ها با داده های بدون ساختار Challenges with Unstructured Data

  • استخراج محتوا چگونه کار می کند - تمیز کردن و عادی سازی داده ها How Content Extraction Works - Cleaning and Data Normalization

  • قطعه بندی و ساختاردهی داده ها و هماهنگی گردش کار Chunking and Structuring Data and Workflow Orchestration

  • چارچوب بدون ساختار - کل گردش کار و مرور کلی The Unstructured Framework - The Whole Workflow and Overview

بررسی کنید Check in

  • بررسی کنید Check in

عملی: چارچوب بدون ساختار - پیش پردازش HTML، PDF و اسناد PPTX Hands-on: The Unstructured Framework - Preprocessing HTML, PDFs & PPTX Documents

  • عملی: پیش پردازش یک فایل PDF و تجزیه داده های JSON استخراج شده Hands-on: Preprocessing a PDF File and Dissecting the Extracted JSON Data

  • عملی: پیش پردازش یک فایل PPTX (پاورپوینت). Hands-on: Preprocessing a PPTX (PowerPoint) File

  • عملی: پیش پردازش یک فایل HTML Hands-on: Preprocessing an HTML File

  • مزایای عادی سازی محتوا - خلاصه Benefits of Normalizing Content - Summary

خرد کردن و استخراج فراداده Chunking and Metadata Extraction

  • خرد کردن محتوا و استخراج فراداده - بررسی اجمالی Content Chunking and Metadata Extraction - Overview

  • یافتن عناصر مرتبط با فصل ها - عملی Finding Elements Associated with Chapters - Hands-on

  • تشابه معنایی - جستجوی ترکیبی و ذخیره اسناد در پایگاه داده برداری Semantic Similarity - Hybrid Search and Saving Documents to Vector Database

  • بازسازی کد - از پیش پردازش اسناد چندگانه خودداری کنید Code Restructuring - Avoid Multiple Document Preprocessing

  • چالش های تشابه معنایی - معیارهای تازگی اطلاعات Semantic Similarity Challenges - Information Recency Criteria

  • تقسیم بندی برای عناصر و مزایای سند - نمای کلی Chunking for Document Elements and Benefits - Full Overview

  • قطعه قطعه کردن محتوای سند - عملی Chunking Document Content - Hands-on

  • خلاصه Summary

پیش پردازش اسناد پیچیده - PDF و تصاویر Preprocessing Complex Documents - PDFs and Images

  • پیش پردازش اسناد پیچیده - PDF و تصاویر - مرور کلی Preprocessing Complex Documents - PDFs and Images - Overview

  • روش های تجزیه و تحلیل تصویر سند: آشکارساز طرح بندی سند و ترانسفورماتور بصری Document Image Analysis Methods: Document Layout Detector and Visual Transformer

  • مزایا و معایب ViT و DLD Advantages and Disadvantages of ViT and DLD

  • پیش پردازش فایل های HTML و PDF - سریع Preprocessing HTML and PDF files - Fast

  • پیش پردازش با تشخیص طرح بندی سند و مقایسه نتایج Preprocessing with Document Layout Detection and Comparing the Results

  • استخراج محتوای جدول - عملی Table Content Extraction - Hands-on

  • خلاصه کردن داده های جدول با LangChain - عملی Summarizing the Table Data with LangChain - Hands-on

یک سیستم RAG با استفاده از تکنیک های آموخته بسازید - مورد استفاده کامل Build a RAG System Using Learned Techniques - Full Use Case

  • همه چیز را کنار هم بگذارید - با استفاده از آنچه یاد گرفته اید یک سیستم RAG بسازید - مرور کلی Put it All Together - Build a RAG System Using What You've Learned - Overview

  • پیش پردازش یک فایل PDF و نمایش محتوای جدولی نیز - قسمت 1 Preprocessing a PDF File and Showing Tabular Content as Well - Part 1

  • فیلتر کردن منابع و سرصفحه ها از PDF - قسمت 2 Filtering out References and Headers from PDF - Part 2

  • فایل PPTX و MD را پیش پردازش کنید و عناصر سند را در پایگاه داده برداری ذخیره کنید: قسمت 3 Preprocess PPTX & MD File and Save Document Elements to Vector Database: Part 3

  • چت با اسناد خود - PDF - قسمت 4 Chat with Your Own Documents - PDF - Part 4

  • با اسناد خود گپ بزنید - اسناد MD و PPTX - نهایی Chat with Your Own Documents - MD and PPTX Documents - Final

جمع کنید Wrap up

  • بعد چه است What's Next

  • سخنرانی پاداش Bonus Lecture

نمایش نظرات

پیش پردازش داده های بدون ساختار برای برنامه های RAG و LLM - [جدید]
جزییات دوره
3 hours
42
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
149
4.4 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Paulo Dichone  Software Engineer, AWS Cloud Practitioner   Instructor Paulo Dichone Software Engineer, AWS Cloud Practitioner Instructor

Android، Flutter، AWS، پرفروش ترین مربی