لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش پیشپردازش دادههای غیرساختاریافته برای مدلهای زبانی بزرگ (LLM) و سیستمهای RAG
- آخرین آپدیت
دانلود Preprocessing Unstructured Data for LLMs and RAG Systems
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
بهروزرسانی شده در می ۲۰۲۵.
این دوره اکنون دارای قابلیت Coursera Coach است!
روشی هوشمندتر برای یادگیری با گفتگوهای تعاملی و در لحظه که به شما کمک میکند دانش خود را آزمایش کنید، پیشفرضها را به چالش بکشید و با پیشروی در دوره، درک خود را عمیقتر کنید.
با تسلط بر تکنیکهای پیشپردازش برای مدلهای زبانی بزرگ (LLMs) و سیستمهای تولید تقویتشده با بازیابی (RAG)، پتانسیل کامل دادههای غیرساختاریافته را آزاد کنید. این دوره جامع شما را با مهارتهای لازم برای آمادهسازی دادههای غیرساختاریافته جهت کاربردهای پیشرفته هوش مصنوعی مجهز میکند و ورودیهایی با کیفیت بالا برای دستیابی به نتایج بهتر تضمین مینماید. از درک پیچیدگیهای پیشپردازش دادهها تا پروژههای عملی، شما بینشهای ارزشمندی درباره چارچوبها و ابزارهای پیشرو به دست خواهید آورد.
سفر شما با راهاندازی یک محیط توسعه قدرتمند، شامل حسابهای API و یکپارچهسازیهای کلیدی آغاز میشود. سپس به جزئیات پیشپردازش دادههای غیرساختاریافته میپردازید و چالشهایی مانند نرمالسازی دادهها، تکهبندی (Chunking) و استخراج متادادهها را مدیریت خواهید کرد. با استفاده از Unstructured Framework، شما به طور بهینه اسناد HTML، PDF و PPTX را پیشپردازش کرده و ساختار بهینه دادهها را تضمین میکنید.
این دوره بر کاربردهای دنیای واقعی تأکید دارد و تجربه عملی در زمینه شباهت معنایی (Semantic Similarity)، پایگاههای داده برداری (Vector Databases) و استراتژیهای جستجوی ترکیبی ارائه میدهد. شما تکنیکهای پیشرفته تشخیص چیدمان سند را با بهرهگیری از ابزارهایی مانند Visual Transformers و LangChain برای پیشپردازش اسناد پیچیده و استخراج بینشهای معنادار بررسی خواهید کرد. در نهایت، تمام این مهارتها را در ساخت یک سیستم RAG کاملاً کاربردی به کار میگیرید و تکنیکهای آموخته شده را برای تعامل پویا با دادهها ادغام میکنید.
این دوره برای مهندسان داده، متخصصان هوش مصنوعی و توسعهدهندگانی که به دنبال ارتقای مهارتهای پیشپردازش خود هستند، ایدهآل است. اگرچه آشنایی با پایتون و استفادههای پایه از API مفید است، اما ساختار دوره بهگونهای است که هم برای افراد سطح متوسط و هم برای کسانی که به دنبال تخصص پیشرفته هستند، مناسب باشد.
سرفصل ها و درس ها
مقدمه
Introduction
معارفه، معرفی دوره و پیشنیازها
Introductions and What the Course is About and Prerequisites
ساختار دوره
Course Structure
راهاندازی محیط توسعه
Development Environment Setup
مرور کلی راهاندازی محیط توسعه
Development Environment Setup - Overview
راهاندازی حساب OpenAI API و دریافت کلید API
Setup OpenAI API Account and API Key
راهاندازی حساب Unstructured و دریافت کلید API رایگان
Setup the Unstructured Account and FREE API Key
اجرای آزمایشی چارچوب Unstructured
Unstructured Framework Test Run
بررسی عمیق پیشپردازش دادهها برای LLMها
Data Preprocessing for LLMs - Deep Dive
بررسی عمیق پیشپردازش دادهها: مرور کلی
Data Preprocessing Deep Dive - Overview
پیشپردازش دادهها برای LLMها: چرا پیشپردازش سخت است؟
Data Preprocessing for LLMs Overview - Why Data Preprocessing is Hard
چالشهای دادههای غیرساختاریافته
Challenges with Unstructured Data
نحوه عملکرد استخراج محتوا: پاکسازی و نرمالسازی دادهها
How Content Extraction Works - Cleaning and Data Normalization
تکهبندی، ساختاردهی دادهها و ارکستراسیون جریان کاری
Chunking and Structuring Data and Workflow Orchestration
چارچوب Unstructured: بررسی کلی جریان کاری
The Unstructured Framework - The Whole Workflow and Overview
تمرین عملی: چارچوب Unstructured و پیشپردازش اسناد HTML، PDF و PPTX
Hands-on: The Unstructured Framework - Preprocessing HTML, PDFs & PPTX Documents
تمرین عملی: پیشپردازش فایل PDF و تحلیل دادههای JSON استخراج شده
Hands-on: Preprocessing a PDF File and Dissecting the Extracted JSON Data
خلاصهسازی دادههای جدولی با LangChain: تمرین عملی
Summarizing the Table Data with LangChain - Hands-on
ساخت سیستم RAG با استفاده از تکنیکهای آموخته شده: مورد پژوهی کامل
Build a RAG System Using Learned Techniques - Full Use Case
جمعبندی نهایی: ساخت سیستم RAG با استفاده از آموختهها: مرور کلی
Put it All Together - Build a RAG System Using What You've Learned - Overview
پیشپردازش فایل PDF و نمایش محتوای جدولی: بخش اول
Preprocessing a PDF File and Showing Tabular Content as Well - Part 1
فیلتر کردن مراجع و سربرگها از PDF: بخش دوم
Filtering out References and Headers from PDF - Part 2
پیشپردازش فایلهای PPTX و MD و ذخیره المانها در پایگاه داده برداری: بخش سوم
Preprocess PPTX & MD File and Save Document Elements to Vector Database: Part 3
چت با اسناد شخصی (PDF): بخش چهارم
Chat with Your Own Documents - PDF - Part 4
چت با اسناد شخصی (MD و PPTX): بخش نهایی
Chat with Your Own Documents - MD and PPTX Documents - Final
نمایش نظرات