لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
پیش پردازش داده های بدون ساختار برای برنامه های RAG و LLM - [جدید]
Unstructured Data Preprocessing for RAG Apps & LLMs - [NEW]
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
تسلط بر دادههای بدون ساختار با تکنیکهای ViT، فراداده، تکهشکن پیشرفته، جستجوی ترکیبی، و تکنیکهای RAG: آموزش استخراج، پردازش و عادیسازی دادهها از فرمتهای مختلف اسناد، از جمله PDF، پاورپوینتها: نحوه غنیسازی را بیاموزید. اسنادی با فراداده جامع، امکان بازیابی دادههای دقیقتر و مرتبطتر را امکانپذیر میسازد. استفاده از مدلهای چشمانداز و تکنیکهای قطعهسازی: مهارتهای عملی در استفاده از مدلهای بینایی مانند ViT و روشهای تکهشکن پیشرفته برای مدیریت، تجزیه و تحلیل ساخت و استقرار موتورهای جستجوی ترکیبی: توسعه و استقرار موتورهای جستجوی ترکیبی که ترکیب بازیابی مبتنی بر محتوا با پرس و جوهای مبتنی بر فراداده پیش نیازها: دانش برنامه نویسی پایه: آشنایی با مفاهیم برنامه نویسی، به ویژه در پایتون و جاوا اسکریپت، به فراگیران کمک می کند تا محتوای دوره را به طور موثرتری درک کرده و به کار گیرند. آشنایی با مفاهیم هوش مصنوعی: درک اولیه هوش مصنوعی، LLM یا یادگیری ماشینی، درک پیش پردازش داده ها و مفاهیم RAG را که در این دوره آموزش داده شده اند، آسان تر می کند.
قفل دادههای بدون ساختار را باز کنید و برنامههای مبتنی بر هوش مصنوعی خود را با این دوره جامع در مورد تبدیل دادههای بدون ساختار به بینشهای عملی با استفاده از تکنیکهای پیشرفته ارتقا دهید. چه یک توسعهدهنده، دانشمند داده یا علاقهمند به هوش مصنوعی باشید، این دوره شما را به مهارتهایی برای استخراج، پردازش و عادیسازی محتوا از فرمتهای اسناد مختلف-از جمله PDF، پاورپوینت، فایلهای Word، صفحات HTML، جداول، و تصاویر مجهز میکند. —آماده سازی داده های خود برای سیستم های RAG پیچیده و مدل های زبان بزرگ (LLM).
در این دوره آموزشی، شما عمیقاً به چارچوب بدون ساختار، ابزاری قدرتمند برای مدیریت و عادی سازی داده های بدون ساختار، می پردازید. میخواهم یاد بگیرید که چگونه اسناد خود را با ابرداده غنی کنید، تکنیکهای تکهبندی پیشرفته را اعمال کنید و از روشهای جستجوی ترکیبی برای بهبود فرآیندهای بازیابی و تولید دادههای خود استفاده کنید. با تمرکز بر برنامه های کاربردی دنیای واقعی، تجربه عملی در پیش پردازش اسناد با استفاده از مدل های بینایی مانند ViT، استخراج اطلاعات ارزشمند از طریق ترانسفورماتورهای جدولی، و ادغام یکپارچه این اجزا در برنامه های کاربردی RAG خود به دست خواهید آورد.
آنچه یاد خواهید گرفت:
بر چارچوب بدون ساختار مسلط شوید: نحوه استفاده از چارچوب بدون ساختار را برای مدیریت و عادی سازی انواع داده ها، بهینه سازی آنها برای استفاده در سیستم های RAG و LLMها بدانید.
استخراج فراداده پیشرفته: یاد بگیرید که اسناد خود را با فراداده های جامع غنی کنید، دقت جستجو و ارتباط را در برنامه های کاربردی مبتنی بر هوش مصنوعی بهبود بخشید.
تکنیکهای پیشرفتهای را اجرا کنید: از روشهای تکهشکن پیشرفته برای مدیریت و پردازش مجموعههای داده بزرگ استفاده کنید و از پردازش و بازیابی کارآمد دادهها اطمینان حاصل کنید.
از قابلیتهای جستجوی ترکیبی استفاده کنید: تکنیکهای جستجوی ترکیبی را کاوش کنید که ابرداده و بازیابی مبتنی بر محتوا را ترکیب میکند و عملکرد موتورهای جستجوی شما را افزایش میدهد.
تجزیه و تحلیل تصویر سند با ViT: از مدلهای بینایی مانند ViT و ترانسفورماتورهای جدول برای تجزیه و تحلیل و پیش پردازش تصاویر سند استفاده کنید، و توانایی شما برای استخراج و استفاده از دادههای بدون ساختار را افزایش میدهد.
چرا این دوره؟
این دوره برای حرفهایهایی طراحی شده است که میخواهند از پردازش دادههای اولیه فراتر رفته و به تکنیکهای پیشرفته برای مدیریت دادههای بدون ساختار در سیستمهای RAG بپردازند. از طریق مجموعهای از پروژههای عملی، تخصص لازم برای ساخت و استقرار موتورهای دادهای قوی و مقیاسپذیر را به دست خواهید آورد که میتوانند پرسوجوهای پیچیده را مدیریت کرده و پاسخهای مرتبط با زمینه را ایجاد کنند. خواه به دنبال ارتقاء مجموعه مهارت های فعلی خود باشید یا به دنبال کشف مرزهای جدید در توسعه مبتنی بر هوش مصنوعی باشید، این دوره دانش و تجربه عملی مورد نیاز برای موفقیت را ارائه می دهد.
به ما بپیوندید و در هنر تبدیل دادههای بدون ساختار به بینشهای قدرتمند و ساختاریافته برای سیستمهای RAG و برنامههای LLM خود مسلط شوید!
سرفصل ها و درس ها
مقدمه
Introduction
مقدمه ها و مطالب دوره و پیش نیازها
Introductions and What the Course is About and Prerequisites
ساختار دوره
Course Structure
کد منبع را دانلود کنید
Download Source Code
کد منبع
Source code
اسلایدهای دوره
Course Slides
راه اندازی محیط توسعه
Development Environment Setup
راه اندازی محیط توسعه - بررسی اجمالی
Development Environment Setup - Overview
حساب OpenAI API و کلید API را راه اندازی کنید
Setup OpenAI API Account and API Key
حساب بدون ساختار و کلید API رایگان را تنظیم کنید
Setup the Unstructured Account and FREE API Key
اجرای آزمایشی چارچوب بدون ساختار
Unstructured Framework Test Run
پیش پردازش داده برای LLMs - Deep Dive
Data Preprocessing for LLMs - Deep Dive
پیش پردازش داده ها Deep Dive - بررسی اجمالی
Data Preprocessing Deep Dive - Overview
بررسی اجمالی پیش پردازش داده برای LLM - چرا پیش پردازش داده ها سخت است
Data Preprocessing for LLMs Overview - Why Data Preprocessing is Hard
چالش ها با داده های بدون ساختار
Challenges with Unstructured Data
استخراج محتوا چگونه کار می کند - تمیز کردن و عادی سازی داده ها
How Content Extraction Works - Cleaning and Data Normalization
قطعه بندی و ساختاردهی داده ها و هماهنگی گردش کار
Chunking and Structuring Data and Workflow Orchestration
چارچوب بدون ساختار - کل گردش کار و مرور کلی
The Unstructured Framework - The Whole Workflow and Overview
بررسی کنید
Check in
بررسی کنید
Check in
عملی: چارچوب بدون ساختار - پیش پردازش HTML، PDF و اسناد PPTX
Hands-on: The Unstructured Framework - Preprocessing HTML, PDFs & PPTX Documents
عملی: پیش پردازش یک فایل PDF و تجزیه داده های JSON استخراج شده
Hands-on: Preprocessing a PDF File and Dissecting the Extracted JSON Data
عملی: پیش پردازش یک فایل PPTX (پاورپوینت).
Hands-on: Preprocessing a PPTX (PowerPoint) File
عملی: پیش پردازش یک فایل HTML
Hands-on: Preprocessing an HTML File
مزایای عادی سازی محتوا - خلاصه
Benefits of Normalizing Content - Summary
خرد کردن و استخراج فراداده
Chunking and Metadata Extraction
خرد کردن محتوا و استخراج فراداده - بررسی اجمالی
Content Chunking and Metadata Extraction - Overview
یافتن عناصر مرتبط با فصل ها - عملی
Finding Elements Associated with Chapters - Hands-on
تشابه معنایی - جستجوی ترکیبی و ذخیره اسناد در پایگاه داده برداری
Semantic Similarity - Hybrid Search and Saving Documents to Vector Database
بازسازی کد - از پیش پردازش اسناد چندگانه خودداری کنید
Code Restructuring - Avoid Multiple Document Preprocessing
چالش های تشابه معنایی - معیارهای تازگی اطلاعات
Semantic Similarity Challenges - Information Recency Criteria
تقسیم بندی برای عناصر و مزایای سند - نمای کلی
Chunking for Document Elements and Benefits - Full Overview
پیش پردازش اسناد پیچیده - PDF و تصاویر
Preprocessing Complex Documents - PDFs and Images
پیش پردازش اسناد پیچیده - PDF و تصاویر - مرور کلی
Preprocessing Complex Documents - PDFs and Images - Overview
روش های تجزیه و تحلیل تصویر سند: آشکارساز طرح بندی سند و ترانسفورماتور بصری
Document Image Analysis Methods: Document Layout Detector and Visual Transformer
مزایا و معایب ViT و DLD
Advantages and Disadvantages of ViT and DLD
پیش پردازش فایل های HTML و PDF - سریع
Preprocessing HTML and PDF files - Fast
پیش پردازش با تشخیص طرح بندی سند و مقایسه نتایج
Preprocessing with Document Layout Detection and Comparing the Results
خلاصه کردن داده های جدول با LangChain - عملی
Summarizing the Table Data with LangChain - Hands-on
یک سیستم RAG با استفاده از تکنیک های آموخته بسازید - مورد استفاده کامل
Build a RAG System Using Learned Techniques - Full Use Case
همه چیز را کنار هم بگذارید - با استفاده از آنچه یاد گرفته اید یک سیستم RAG بسازید - مرور کلی
Put it All Together - Build a RAG System Using What You've Learned - Overview
پیش پردازش یک فایل PDF و نمایش محتوای جدولی نیز - قسمت 1
Preprocessing a PDF File and Showing Tabular Content as Well - Part 1
فیلتر کردن منابع و سرصفحه ها از PDF - قسمت 2
Filtering out References and Headers from PDF - Part 2
فایل PPTX و MD را پیش پردازش کنید و عناصر سند را در پایگاه داده برداری ذخیره کنید: قسمت 3
Preprocess PPTX & MD File and Save Document Elements to Vector Database: Part 3
چت با اسناد خود - PDF - قسمت 4
Chat with Your Own Documents - PDF - Part 4
با اسناد خود گپ بزنید - اسناد MD و PPTX - نهایی
Chat with Your Own Documents - MD and PPTX Documents - Final
نمایش نظرات