نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره:
این دوره شامل تکنیک های مهمی در تهیه داده ها ، تمیز کردن داده ها و انتخاب ویژگی هایی است که برای موفقیت در مدل یادگیری ماشین شما لازم است. شما همچنین خواهید آموخت که چگونه برای مقابله با داده ها و استراتژی های از دست رفته ، از محاسبه استفاده کنید. ما در تلاش برای حل در این دوره ، با آماده سازی داده ها برای یادگیری ماشین * شما توانایی کاوش ، تمیز کردن و ساختاردهی داده های خود را به روش هایی خواهید داشت که از مدل یادگیری ماشین شما بهترین بهره را می برد. اول ، شما خواهید آموخت که چرا تمیز کردن داده ها و تهیه داده ها بسیار مهم است ، و چگونه داده های از دست رفته ، پرتغال و سایر مشکلات مربوط به داده ها را می توان حل کرد. در مرحله بعدی ، خواهید فهمید که چگونه مدل هایی که بیش از حد اطلاعات را می خوانند ، از مشکلی به نام نصب بیش از حد رنج می برند ، که در آن مدل ها در شرایط آزمون عملکرد خوبی دارند اما در استقرارهای زنده تلاش می کنند. همچنین می فهمید که چگونه مدل هایی که با داده های ناکافی یا غیر نمایندگی آموزش داده می شوند از مجموعه دیگری از مشکلات رنج می برند و چگونه می توان این مشکلات را کاهش داد. سرانجام ، شما با استفاده از روش های مختلف برای انتخاب ویژگی ، مقابله با داده های از دست رفته با استفاده از استناد ، و ساخت مدل های خود با استفاده از مناسب ترین ویژگی ها ، دانش خود را جمع آوری می کنید. پس از پایان این دوره ، مهارت و دانش لازم برای شناسایی روشهای صحیح داده برای تمیز کردن داده ها و آماده سازی داده ها برای تنظیم مدل خود برای موفقیت را خواهید داشت.
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
-
بررسی اجمالی دوره
Course Overview
درک نیاز به آماده سازی داده ها
Understanding the Need for Data Preparation
-
بررسی اجمالی ماژول
Module Overview
-
پیش نیازها و طرح کلی دوره
Prerequisites and Course Outline
-
نیاز به تهیه اطلاعات
The Need for Data Preparation
-
اطلاعات کافی نیست
Insufficient Data
-
داده های بسیار زیاد
Too Much Data
-
داده های غیر نماینده ، مقادیر گمشده ، هزینه های دور ، کپی ها
Non-representative Data, Missing Values, Outliers, Duplicates
-
رسیدگی به اطلاعات از دست رفته
Dealing with Missing Data
-
معامله با Outlier ها
Dealing with Outliers
-
نمونه برداری بیش از حد و زیر نمونه برداری برای مجموعه داده های تعادل
Oversampling and Undersampling to Balance Datasets
-
بیش از حد و زیر سازی
Overfitting and Underfitting
-
خلاصه ماژول
Module Summary
اجرای تمیز کردن و تبدیل داده ها
Implementing Data Cleaning and Transformation
-
بررسی اجمالی ماژول
Module Overview
-
مدیریت مقادیر از دست رفته
Handling Missing Values
-
پاک کردن داده ها
Cleaning Data
-
تجسم روابط
Visualizing Relationships
-
ساختن مدل رگرسیون
Building a Regression Model
-
استفاده از ویژگی تک متغیره با استفاده از جعل ساده
Univariate Feature Imputation Using the Simple Imputer
-
چند منظوره محاسبه ویژگی با استفاده از جعلی تکرار
Multivariate Feature Imputation Using the Iterative Imputer
-
شاخص ارزش گمشده
Missing Value Indicator
-
ویژگی ورودی به عنوان بخشی از خط لوله یادگیری ماشین
Feature Imputation as a Part of an Machine Learning Pipeline
-
خلاصه ماژول
Module Summary
تبدیل داده های مداوم و دسته ای
Transforming Continuous and Categorical Data
-
بررسی اجمالی ماژول
Module Overview
-
داده های عددی
Numeric Data
-
ویژگی های مقیاس گذاری و استاندارد سازی
Scaling and Standardizing Features
-
ویژگی های عادی سازی و باینری کردن
Normalizing and Binarizing Features
-
داده های دسته بندی شده
Categorical Data
-
رمزگذاری عددی داده های دسته ای
Numeric Encoding of Categorical Data
-
رمزگذاری برچسب و رمزگذاری یک گرم
Label Encoding and One-hot Encoding
-
گسسته سازی ارزش های مداوم با استفاده از برش Pandas
Discretization of Continuous Values Using Pandas Cut
-
گسسته سازی مقادیر مداوم با استفاده از گرافیک کننده KBins
Discretization of Continuous Values Using the KBins Discretizer
-
ساخت یک مدل رگرسیون با داده های گسسته شده
Building a Regression Model with Discretized Data
-
خلاصه ماژول
Module Summary
درک انتخاب ویژگی
Understanding Feature Selection
-
بررسی اجمالی ماژول
Module Overview
-
نفرین بعد
The Curse of Dimensionality
-
کاهش پیچیدگی در داده ها
Reducing Complexity in Data
-
انتخاب ویژگی برای کاهش ابعاد
Feature Selection to Reduce Dimensions
-
روشهای فیلتر
Filter Methods
-
روشهای جاسازی شده
Embedded Methods
-
خلاصه ماژول
Module Summary
در حال اجرا انتخاب ویژگی
Implementing Feature Selection
-
بررسی اجمالی ماژول
Module Overview
-
همبستگی ویژگی ها
Feature Correlations
-
استفاده از ماتریس همبستگی برای تشخیص چند خطی بودن
Using the Correlation Matrix to Detect Multi-collinearity
-
استفاده از فاکتور تورم واریانس برای تشخیص چند خطی بودن
Using Variance Inflation Factor to Detect Multi-collinearity
-
انتخاب ویژگی ها با استفاده از آستانه مقادیر از دست رفته و آستانه واریانس
Features Selection Using Missing Values Threshold and Variance Threshold
-
انتخاب ویژگی یک متغیره با استفاده از Chi2 و ANOVA
Univariate Feature Selection Using Chi2 and ANOVA
-
انتخاب ویژگی با استفاده از روشهای بسته بندی
Feature Selection Using Wrapper Methods
-
انتخاب ویژگی با استفاده از روش های جاسازی شده
Feature Selection Using Embedded Methods
-
خلاصه ماژول
Module Summary
نمایش نظرات