آموزش پیش پردازش داده برای یادگیری ماشین در پایتون

Data pre-processing for Machine Learning in Python

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: نحوه تبدیل یک مجموعه داده برای یک مدل یادگیری ماشین نحوه پر کردن کمبودهای متغیرهای عددی و طبقه بندی نحوه رمزگذاری متغیرهای طبقه بندی نحوه تبدیل متغیرهای عددی نحوه تغییر مقیاس متغیرهای عددی تجزیه و تحلیل مؤلفه اصلی و نحوه استفاده از آن نحوه اعمال نمونه برداری بیش از حد با استفاده از SMOTE نحوه استفاده از چندین شی مفید در کتابخانه scikit-learn پیش نیازها: دانش پایه زبان برنامه نویسی پایتون

در این دوره، ما بر روی تکنیک های پیش پردازش برای یادگیری ماشین تمرکز می کنیم.

پیش پردازش مجموعه ای از دستکاری ها است که یک مجموعه داده خام را تبدیل می کند تا آن را توسط یک مدل یادگیری ماشین استفاده کند. برای مناسب ساختن داده های ما برای برخی از مدل های یادگیری ماشین، کاهش ابعاد، شناسایی بهتر داده های مربوطه و افزایش عملکرد مدل ضروری است. این مهم ترین بخش خط لوله یادگیری ماشین است و به شدت می تواند بر موفقیت یک پروژه تأثیر بگذارد. در واقع، اگر یک مدل یادگیری ماشینی را با داده‌های شکل‌دهی صحیح تغذیه نکنیم، اصلاً کار نخواهد کرد.

گاهی اوقات، دانشمندان مشتاق داده شروع به مطالعه شبکه های عصبی و سایر مدل های پیچیده می کنند و فراموش می کنند که چگونه یک مجموعه داده را دستکاری کنند تا آن را توسط الگوریتم های خود مورد استفاده قرار دهند. بنابراین، آنها در ایجاد مدل های خوب شکست می خورند و فقط در پایان متوجه می شوند که پیش پردازش خوب باعث می شود تا زمان زیادی صرفه جویی کنند و عملکرد الگوریتم هایشان را افزایش دهند. بنابراین، دست زدن به تکنیک های پیش پردازش یک مهارت بسیار مهم است. به همین دلیل است که من یک دوره کامل ایجاد کرده ام که فقط بر پیش پردازش داده ها تمرکز دارد.

با این دوره، می خواهید یاد بگیرید:

  1. پاکسازی داده ها

  2. رمزگذاری متغیرهای طبقه بندی شده

  3. تغییر ویژگی های عددی

  4. اشیاء Pipeline و ColumnTransformer با یادگیری Scikit

  5. مقیاس‌سازی ویژگی‌های عددی

  6. تجزیه و تحلیل مؤلفه اصلی

  7. انتخاب ویژگی مبتنی بر فیلتر

  8. نمونه برداری بیش از حد با استفاده از SMOTE

همه مثال ها با استفاده از زبان برنامه نویسی Python و کتابخانه قدرتمند Sicit-Learn آن ارائه خواهند شد. محیطی که مورد استفاده قرار خواهد گرفت Jupyter است که یک استاندارد در صنعت علم داده است. تمام بخش‌های این دوره با چند تمرین عملی به پایان می‌رسد و دفترچه‌های Jupyter همگی قابل دانلود هستند.


سرفصل ها و درس ها

معرفی Introduction

  • معرفی دوره Introduction to the course

  • متغیرهای عددی و طبقه ای Numerical and categorical variables

  • مجموعه داده The dataset

  • بسته های پایتون مورد نیاز Required Python packages

  • نوت بوک های Jupyter Jupyter notebooks

پاکسازی داده ها Data cleaning

  • مقدمه ای بر پاکسازی داده ها Introduction to data cleaning

  • انتخاب متغیرهای عددی و دسته بندی Selecting numerical and categorical variables

  • تمیز کردن ویژگی های عددی Cleaning the numerical features

  • تمیز کردن ویژگی های طبقه بندی شده Cleaning the categorical features

  • پر کردن جای خالی KNN KNN blank filling

  • ColumnTransformer و make_column_selector ColumnTransformer and make_column_selector

  • تمرینات Exercises

رمزگذاری ویژگی های طبقه بندی شده Encoding of the categorical features

  • مقدمه ای بر رمزگذاری متغیرهای طبقه بندی شده Introduction to the encoding of categorical variables

  • رمزگذاری تک داغ One-hot encoding

  • رمزگذاری ترتیبی Ordinal encoding

  • رمزگذاری برچسب متغیر هدف Label encoding of the target variable

  • ورزش Exercise

تبدیل ویژگی های عددی Transformations of the numerical features

  • مقدمه ای بر تحولات Introduction to transformations

  • تبدیل قدرت Power Transformation

  • بنینگ Binning

  • باینریزه کردن Binarizing

  • اعمال یک تبدیل دلخواه Applying an arbitrary transformation

  • ورزش Exercise

  • درباره تحولات قدرت About power transformations

خطوط لوله Pipelines

  • خط لوله انتقال را تعریف کنید Define a transformation pipeline

  • Pipelines و ColumnTransformer با هم Pipelines and ColumnTransformer together

  • تمرینات Exercises

مقیاس بندی Scaling

  • مقدمه ای بر مقیاس بندی Introduction to scaling

  • عادی سازی، استانداردسازی، مقیاس بندی قوی Normalization, Standardization, Robust scaling

  • ورزش Exercise

تجزیه و تحلیل مؤلفه های اصلی Principal Component Analysis

  • مقدمه ای بر PCA Introduction to PCA

  • نحوه انجام PCA How to perform PCA

  • ورزش Exercise

انتخاب ویژگی مبتنی بر فیلتر Filter-based feature selection

  • مقدمه ای بر انتخاب ویژگی Introduction to feature selection

  • ویژگی های عددی، هدف عددی Numerical features, numerical target

  • ویژگی های عددی، هدف طبقه بندی شده Numerical features, categorical target

  • ویژگی های دسته بندی، هدف عددی Categorical features, numerical target

  • ویژگی های طبقه بندی شده، هدف طبقه بندی شده Categorical features, categorical target

  • اهمیت ویژگی بر اساس یک مدل Feature importance according to a model

  • نظر در مورد اطلاعات متقابل A comment on mutual information

  • نظر در مورد انتخاب ویژگی با متغیرهای طبقه بندی شده A comment on feature selection with categorical variables

  • تمرینات Exercises

یک خط لوله کامل A complete pipeline

  • نمونه ای از یک خط لوله کامل An example of a complete pipeline

نمونه برداری بیش از حد Oversampling

  • مقدمه ای بر SMOTE Introduction to SMOTE

  • نحوه اجرای SMOTE How to perform SMOTE

  • ورزش Exercise

دستورالعمل های عمومی General guidelines

  • پیشنهادات کاربردی Practical suggestions

نمایش نظرات

آموزش پیش پردازش داده برای یادگیری ماشین در پایتون
جزییات دوره
5.5 hours
47
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,345
4.7 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Gianluca Malato Gianluca Malato

معلم داده شما نام من Gianluca Malato است، من ایتالیایی هستم و دارای مدرک کارشناسی ارشد در فیزیک نظری سیستم های بی نظم در "La Sapienza" رم هستم. من یک دانشمند داده هستم که سال ها در بخش بانکداری و بیمه کار کرده ام. من تجربه زیادی در برنامه نویسی نرم افزار و مدیریت پروژه دارم و چندین سال است که با تجزیه و تحلیل داده ها و یادگیری ماشین در محیط شرکت سر و کار دارم. من همچنین در تجزیه و تحلیل داده ها (مانند پایگاه های داده رابطه ای و زبان SQL)، الگوریتم های عددی (به عنوان مثال ادغام ODE، الگوریتم های بهینه سازی) و شبیه سازی (مانند تکنیک های مونت کارلو) مهارت دارم. من مقالات زیادی در مورد یادگیری ماشینی، R و Python نوشته‌ام و نویسنده برتر رسانه در رده هوش مصنوعی بوده‌ام.