آموزش آماده سازی داده ها برای یادگیری ماشین

Preparing Data for Machine Learning

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره: این دوره شامل تکنیک های مهمی در تهیه داده ها ، تمیز کردن داده ها و انتخاب ویژگی هایی است که برای موفقیت در مدل یادگیری ماشین شما لازم است. شما همچنین خواهید آموخت که چگونه برای مقابله با داده ها و استراتژی های از دست رفته ، از محاسبه استفاده کنید. ما در تلاش برای حل در این دوره ، با آماده سازی داده ها برای یادگیری ماشین * شما توانایی کاوش ، تمیز کردن و ساختاردهی داده های خود را به روش هایی خواهید داشت که از مدل یادگیری ماشین شما بهترین بهره را می برد. اول ، شما خواهید آموخت که چرا تمیز کردن داده ها و تهیه داده ها بسیار مهم است ، و چگونه داده های از دست رفته ، پرتغال و سایر مشکلات مربوط به داده ها را می توان حل کرد. در مرحله بعدی ، خواهید فهمید که چگونه مدل هایی که بیش از حد اطلاعات را می خوانند ، از مشکلی به نام نصب بیش از حد رنج می برند ، که در آن مدل ها در شرایط آزمون عملکرد خوبی دارند اما در استقرارهای زنده تلاش می کنند. همچنین می فهمید که چگونه مدل هایی که با داده های ناکافی یا غیر نمایندگی آموزش داده می شوند از مجموعه دیگری از مشکلات رنج می برند و چگونه می توان این مشکلات را کاهش داد. سرانجام ، شما با استفاده از روش های مختلف برای انتخاب ویژگی ، مقابله با داده های از دست رفته با استفاده از استناد ، و ساخت مدل های خود با استفاده از مناسب ترین ویژگی ها ، دانش خود را جمع آوری می کنید. پس از پایان این دوره ، مهارت و دانش لازم برای شناسایی روشهای صحیح داده برای تمیز کردن داده ها و آماده سازی داده ها برای تنظیم مدل خود برای موفقیت را خواهید داشت.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

درک نیاز به آماده سازی داده ها Understanding the Need for Data Preparation

  • بررسی اجمالی ماژول Module Overview

  • پیش نیازها و طرح کلی دوره Prerequisites and Course Outline

  • نیاز به تهیه اطلاعات The Need for Data Preparation

  • اطلاعات کافی نیست Insufficient Data

  • داده های بسیار زیاد Too Much Data

  • داده های غیر نماینده ، مقادیر گمشده ، هزینه های دور ، کپی ها Non-representative Data, Missing Values, Outliers, Duplicates

  • رسیدگی به اطلاعات از دست رفته Dealing with Missing Data

  • معامله با Outlier ها Dealing with Outliers

  • نمونه برداری بیش از حد و زیر نمونه برداری برای مجموعه داده های تعادل Oversampling and Undersampling to Balance Datasets

  • بیش از حد و زیر سازی Overfitting and Underfitting

  • خلاصه ماژول Module Summary

اجرای تمیز کردن و تبدیل داده ها Implementing Data Cleaning and Transformation

  • بررسی اجمالی ماژول Module Overview

  • مدیریت مقادیر از دست رفته Handling Missing Values

  • پاک کردن داده ها Cleaning Data

  • تجسم روابط Visualizing Relationships

  • ساختن مدل رگرسیون Building a Regression Model

  • استفاده از ویژگی تک متغیره با استفاده از جعل ساده Univariate Feature Imputation Using the Simple Imputer

  • چند منظوره محاسبه ویژگی با استفاده از جعلی تکرار Multivariate Feature Imputation Using the Iterative Imputer

  • شاخص ارزش گمشده Missing Value Indicator

  • ویژگی ورودی به عنوان بخشی از خط لوله یادگیری ماشین Feature Imputation as a Part of an Machine Learning Pipeline

  • خلاصه ماژول Module Summary

تبدیل داده های مداوم و دسته ای Transforming Continuous and Categorical Data

  • بررسی اجمالی ماژول Module Overview

  • داده های عددی Numeric Data

  • ویژگی های مقیاس گذاری و استاندارد سازی Scaling and Standardizing Features

  • ویژگی های عادی سازی و باینری کردن Normalizing and Binarizing Features

  • داده های دسته بندی شده Categorical Data

  • رمزگذاری عددی داده های دسته ای Numeric Encoding of Categorical Data

  • رمزگذاری برچسب و رمزگذاری یک گرم Label Encoding and One-hot Encoding

  • گسسته سازی ارزش های مداوم با استفاده از برش Pandas Discretization of Continuous Values Using Pandas Cut

  • گسسته سازی مقادیر مداوم با استفاده از گرافیک کننده KBins Discretization of Continuous Values Using the KBins Discretizer

  • ساخت یک مدل رگرسیون با داده های گسسته شده Building a Regression Model with Discretized Data

  • خلاصه ماژول Module Summary

درک انتخاب ویژگی Understanding Feature Selection

  • بررسی اجمالی ماژول Module Overview

  • نفرین بعد The Curse of Dimensionality

  • کاهش پیچیدگی در داده ها Reducing Complexity in Data

  • انتخاب ویژگی برای کاهش ابعاد Feature Selection to Reduce Dimensions

  • روشهای فیلتر Filter Methods

  • روشهای جاسازی شده Embedded Methods

  • خلاصه ماژول Module Summary

در حال اجرا انتخاب ویژگی Implementing Feature Selection

  • بررسی اجمالی ماژول Module Overview

  • همبستگی ویژگی ها Feature Correlations

  • استفاده از ماتریس همبستگی برای تشخیص چند خطی بودن Using the Correlation Matrix to Detect Multi-collinearity

  • استفاده از فاکتور تورم واریانس برای تشخیص چند خطی بودن Using Variance Inflation Factor to Detect Multi-collinearity

  • انتخاب ویژگی ها با استفاده از آستانه مقادیر از دست رفته و آستانه واریانس Features Selection Using Missing Values Threshold and Variance Threshold

  • انتخاب ویژگی یک متغیره با استفاده از Chi2 و ANOVA Univariate Feature Selection Using Chi2 and ANOVA

  • انتخاب ویژگی با استفاده از روشهای بسته بندی Feature Selection Using Wrapper Methods

  • انتخاب ویژگی با استفاده از روش های جاسازی شده Feature Selection Using Embedded Methods

  • خلاصه ماژول Module Summary

نمایش نظرات

آموزش آماده سازی داده ها برای یادگیری ماشین
جزییات دوره
3h 24m
49
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
32
4.4 از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.