لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش آمادهسازی متن برای مدلهای هوش مصنوعی
- آخرین آپدیت
دانلود Preparing Text for AI Models
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
دوره آمادهسازی متن برای مدلهای هوش مصنوعی برای توسعهدهندگان، مهندسان و سازندگان محصولات فنی طراحی شده است که در حوزه هوش مصنوعی مولد (Generative AI) تازهکار هستند اما دارای دانش متوسط در یادگیری ماشین، تسلط پایه به پایتون و آشنایی با محیطهای توسعه مانند VS Code میباشند و قصد دارند راهکارهای هوش مصنوعی مولد متنباز را مهندسی، شخصیسازی و پیادهسازی کنند تا از وابستگی به تامینکنندگان خاص (Vendor Lock-in) جلوگیری نمایند.
این دوره یادگیرندگان را با مهارتهای عملی در زمینه منبعیابی مجموعهدادهها (Dataset)، پیشپردازش و قالببندی برای آموزش مدلهای زبانی بزرگ (LLM) آشنا میکند. شروع این مسیر با شناسایی مجموعهدادههای متنی از مخازنی مانند Hugging Face، Kaggle و Common Crawl است که در آن یادگیرندگان کیفیت، مرتبط بودن و ملاحظات مربوط به مجوزها را ارزیابی میکنند.
سپس دوره به بررسی خط لولههای پیشپردازش، شامل پاکسازی متن، نرمالسازی، حذف دادههای تکراری و استراتژیهای توکنبندی میپردازد تا کارایی و سازگاری با آموزش مدل تضمین شود. همچنین یادگیرندگان طرحهای برچسبگذاری (Annotation Schemas) را طراحی کرده، تکنیکهای برچسبگذاری نیمه-خودکار را به کار میگیرند و جریانهای کاری اعتبارسنجی را برای حفظ کیفیت میسازند. ماژول نهایی، راهنمای ساخت مجموعهدادههای ساختاریافته برای تنظیم دستورالعملها (Instruction Tuning)، Fine-tuning و بنچمارک است که توسط بهترین روشهای تقسیمبندی دادههای آموزش-تست و لایهبندی پشتیبانی میشود. در پایان دوره، یادگیرندگان مجموعهدادههای متنی آماده تولید (Production-ready) و مناسب برای کاربردهای هوش مصنوعی مولد ایجاد خواهند کرد.
سرفصل ها و درس ها
شناسایی و اکتساب مجموعهدادههای متنی
Dataset Discovery and Acquisition for Text
پادکست: پشت هر مدل عالی، دادههای متنی بهتر است
Podcast: Behind Every Great Model: Better Text Data
وارد کردن و تبدیل مجموعهدادههای متنی
Importing and Converting Text Datasets
آمادهسازی مجموعهدادههای متنی برای خط لولههای آموزش LLM
Preparing Text Datasets for LLM Training Pipelines
پردازش و قالببندی دادههای متنی
Text Data Processing and Formatting
قالببندی برای تنظیم دستورالعملها (Instruction Tuning)
Formatting for Instruction Tuning
ساخت یک خط لوله پیشپردازش
Building a Preprocessing Pipeline
الگوهای پیشرفته قالببندی برای LLMهای تنظیم شده با دستورالعمل
Advanced Formatting Patterns for Instruction-Tuned LLMs
برچسبگذاری و تگگذاری پیشرفته
Advanced Annotation and Tagging
پادکست: لمس انسانی در هوش مصنوعی؛ چرا برچسبگذاری اهمیت دارد
Podcast: The Human Touch in AI: Why Annotation Matters
ایجاد تقسیمبندیها برای تعمیمپذیری مدل
Creating Splits for Model Generalization
نمایش نظرات