لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
کلاس کارشناسی ارشد پاکسازی داده ها در پایتون [ویدئو]
Data Cleansing Master Class in Python [Video]
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
آماده سازی داده ها ممکن است مهمترین بخش پروژه یادگیری ماشینی باشد. این زمانبرترین بخش است، اگرچه کمترین موضوع مورد بحث است. آمادهسازی داده، که گاهی به عنوان پیشپردازش دادهها نیز شناخته میشود، عمل تبدیل دادههای خام به شکلی است که برای مدلسازی مناسب است.
الگوریتم های یادگیری ماشین نیاز به شماره گذاری داده های ورودی دارند و اکثر پیاده سازی های الگوریتم این انتظار را حفظ می کنند. بنابراین، اگر دادههای شما حاوی انواع دادهها و مقادیری هستند که اعداد نیستند، مانند برچسبها، باید دادهها را به عدد تبدیل کنید. علاوه بر این، الگوریتمهای یادگیری ماشینی خاص انتظاراتی در رابطه با انواع دادهها، مقیاس، توزیع احتمال و روابط بین متغیرهای ورودی دارند و ممکن است لازم باشد دادهها را برای برآورده کردن این انتظارات تغییر دهید.
در این دوره آموزشی، روشهای انباشت دادهها و تکنیکهای پیشرفته پاکسازی دادهها، نحوه اعمال تکنیکهای پاکسازی دادههای واقعی در دادههای خود، تکنیکهای پیشرفته پاکسازی دادهها را خواهید آموخت. همچنین یاد بگیرید که چگونه داده ها را به گونه ای آماده کنید که از نشت داده ها و در نتیجه ارزیابی نادرست مدل جلوگیری شود.
در پایان این دوره، شما پیش پردازش داده ها را انجام خواهید داد و به مهارت های پاکسازی داده ها مسلط خواهید شد.
بسته کد کامل این دوره در https://github.com/PacktPublishing/Data-Cleansing-Master-Class-in-Python موجود است. داده ها را به گونه ای آماده کنید که از نشت داده ها جلوگیری شود.
مشکلات مربوط به داده های آشفته را شناسایی و مدیریت کنید
بدانید کدام روش انتخاب ویژگی را بر اساس انواع داده انتخاب کنید
تبدیل توزیع احتمال متغیرهای ورودی
متغیرهای ورودی نامربوط و زائد را شناسایی و حذف کنید
متغیرهای پروژه را در فضایی با ابعاد پایینتر بسازید، اگر قصد دارید در دنیای واقعی یک مهندس یادگیری ماشین شوید، این دوره برای شما مناسب است. شما به یک پایه محکم در پایتون نیاز دارید و باید اصول یادگیری ماشین را بدانید. همچنین، شما باید با کتابخانه های یادگیری ماشینی تخصص داشته باشید. بیاموزید که چگونه از تکنیکهای پاکسازی دادههای واقعی در دادههای خود استفاده کنید * تکنیکهای پیشرفته پاکسازی دادهها را بیاموزید * یاد بگیرید چگونه دادهها را به گونهای آماده کنید که از نشت دادهها و در نتیجه ارزیابی نادرست مدل جلوگیری شود.
سرفصل ها و درس ها
معرفی
Introduction
معرفی دوره
Course Introduction
ساختار دوره
Course Structure
آیا این دوره برای شما مناسب است؟
Is this Course Right for You?
پایه ها
Foundations
معرفی آماده سازی داده ها
Introducing Data Preparation
فرآیند یادگیری ماشینی
The Machine Learning Process
آماده سازی داده ها تعریف شده است
Data Preparation Defined
انتخاب یک تکنیک آماده سازی داده ها
Choosing a Data Preparation Technique
داده در یادگیری ماشین چیست؟
What is Data in Machine Learning?
داده های خام
Raw Data
یادگیری ماشینی عمدتاً آماده سازی داده است
Machine Learning is Mostly Data Preparation
وظایف معمول آماده سازی داده ها - پاکسازی داده ها
Common Data Preparation Tasks - Data Cleansing
وظایف معمول آماده سازی داده - انتخاب ویژگی
Common Data Preparation Tasks - Feature Selection
وظایف معمول آماده سازی داده ها - تبدیل داده ها
Common Data Preparation Tasks - Data Transforms
وظایف مشترک آماده سازی داده ها - مهندسی ویژگی
Common Data Preparation Tasks - Feature Engineering
وظایف معمول آماده سازی داده ها - کاهش ابعاد
Common Data Preparation Tasks - Dimensionality Reduction
نشت داده ها
Data Leakage
مشکل در آماده سازی ساده داده ها
Problem with NaÏve Data Preparation
مطالعه موردی: نشت داده ها: آموزش/آزمون/رویکرد ساده لوح تقسیم شده
Case Study: Data Leakage: Train / Test / Split NaÏve Approach
مطالعه موردی: نشت داده ها: آموزش/آزمون/روش صحیح تقسیم
Case Study: Data Leakage: Train / Test / Split Correct Approach
مطالعه موردی: نشت داده: رویکرد ساده لوح K-Fold
Case Study: Data Leakage: K-Fold NaÏve Approach
مطالعه موردی: نشت داده: رویکرد صحیح K-Fold
Case Study: Data Leakage: K-Fold Correct Approach
پاک کردن داده
Data Cleansing
بررسی اجمالی پاکسازی داده ها
Data Cleansing Overview
ستون هایی را که دارای یک مقدار واحد هستند شناسایی کنید
Identify Columns That Contain a Single Value
ستون هایی با مقادیر کم را شناسایی کنید
Identify Columns with Few Values
حذف ستون های با واریانس کم
Remove Columns with Low Variance
ردیف هایی که حاوی داده های تکراری هستند را شناسایی و حذف کنید
Identify and Remove Rows That Contain Duplicate Data
تعریف نقاط پرت
Defining Outliers
حذف نقاط پرت - رویکرد انحراف استاندارد
Remove Outliers - The Standard Deviation Approach
نمایش نظرات