لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش پیش پردازش داده برای یادگیری ماشین در پایتون
Data pre-processing for Machine Learning in Python
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
نحوه تبدیل یک مجموعه داده برای یک مدل یادگیری ماشین نحوه پر کردن کمبودهای متغیرهای عددی و طبقه بندی نحوه رمزگذاری متغیرهای طبقه بندی نحوه تبدیل متغیرهای عددی نحوه تغییر مقیاس متغیرهای عددی تجزیه و تحلیل مؤلفه اصلی و نحوه استفاده از آن نحوه اعمال نمونه برداری بیش از حد با استفاده از SMOTE نحوه استفاده از چندین شی مفید در کتابخانه scikit-learn پیش نیازها: دانش پایه زبان برنامه نویسی پایتون
در این دوره، ما بر روی تکنیک های پیش پردازش برای یادگیری ماشین تمرکز می کنیم.
پیش پردازش مجموعه ای از دستکاری ها است که یک مجموعه داده خام را تبدیل می کند تا آن را توسط یک مدل یادگیری ماشین استفاده کند. برای مناسب ساختن داده های ما برای برخی از مدل های یادگیری ماشین، کاهش ابعاد، شناسایی بهتر داده های مربوطه و افزایش عملکرد مدل ضروری است. این مهم ترین بخش خط لوله یادگیری ماشین است و به شدت می تواند بر موفقیت یک پروژه تأثیر بگذارد. در واقع، اگر یک مدل یادگیری ماشینی را با دادههای شکلدهی صحیح تغذیه نکنیم، اصلاً کار نخواهد کرد.
گاهی اوقات، دانشمندان مشتاق داده شروع به مطالعه شبکه های عصبی و سایر مدل های پیچیده می کنند و فراموش می کنند که چگونه یک مجموعه داده را دستکاری کنند تا آن را توسط الگوریتم های خود مورد استفاده قرار دهند. بنابراین، آنها در ایجاد مدل های خوب شکست می خورند و فقط در پایان متوجه می شوند که پیش پردازش خوب باعث می شود تا زمان زیادی صرفه جویی کنند و عملکرد الگوریتم هایشان را افزایش دهند. بنابراین، دست زدن به تکنیک های پیش پردازش یک مهارت بسیار مهم است. به همین دلیل است که من یک دوره کامل ایجاد کرده ام که فقط بر پیش پردازش داده ها تمرکز دارد.
با این دوره، می خواهید یاد بگیرید:
پاکسازی داده ها
رمزگذاری متغیرهای طبقه بندی شده
تغییر ویژگی های عددی
اشیاء Pipeline و ColumnTransformer با یادگیری Scikit
مقیاسسازی ویژگیهای عددی
تجزیه و تحلیل مؤلفه اصلی
انتخاب ویژگی مبتنی بر فیلتر
نمونه برداری بیش از حد با استفاده از SMOTE
همه مثال ها با استفاده از زبان برنامه نویسی Python و کتابخانه قدرتمند Sicit-Learn آن ارائه خواهند شد. محیطی که مورد استفاده قرار خواهد گرفت Jupyter است که یک استاندارد در صنعت علم داده است. تمام بخشهای این دوره با چند تمرین عملی به پایان میرسد و دفترچههای Jupyter همگی قابل دانلود هستند.
سرفصل ها و درس ها
معرفی
Introduction
معرفی دوره
Introduction to the course
متغیرهای عددی و طبقه ای
Numerical and categorical variables
مجموعه داده
The dataset
بسته های پایتون مورد نیاز
Required Python packages
نوت بوک های Jupyter
Jupyter notebooks
پاکسازی داده ها
Data cleaning
مقدمه ای بر پاکسازی داده ها
Introduction to data cleaning
انتخاب متغیرهای عددی و دسته بندی
Selecting numerical and categorical variables
تمیز کردن ویژگی های عددی
Cleaning the numerical features
تمیز کردن ویژگی های طبقه بندی شده
Cleaning the categorical features
پر کردن جای خالی KNN
KNN blank filling
ColumnTransformer و make_column_selector
ColumnTransformer and make_column_selector
تمرینات
Exercises
رمزگذاری ویژگی های طبقه بندی شده
Encoding of the categorical features
مقدمه ای بر رمزگذاری متغیرهای طبقه بندی شده
Introduction to the encoding of categorical variables
رمزگذاری تک داغ
One-hot encoding
رمزگذاری ترتیبی
Ordinal encoding
رمزگذاری برچسب متغیر هدف
Label encoding of the target variable
ورزش
Exercise
تبدیل ویژگی های عددی
Transformations of the numerical features
مقدمه ای بر تحولات
Introduction to transformations
تبدیل قدرت
Power Transformation
بنینگ
Binning
باینریزه کردن
Binarizing
اعمال یک تبدیل دلخواه
Applying an arbitrary transformation
ورزش
Exercise
درباره تحولات قدرت
About power transformations
خطوط لوله
Pipelines
خط لوله انتقال را تعریف کنید
Define a transformation pipeline
Pipelines و ColumnTransformer با هم
Pipelines and ColumnTransformer together
معلم داده شما نام من Gianluca Malato است، من ایتالیایی هستم و دارای مدرک کارشناسی ارشد در فیزیک نظری سیستم های بی نظم در "La Sapienza" رم هستم. من یک دانشمند داده هستم که سال ها در بخش بانکداری و بیمه کار کرده ام. من تجربه زیادی در برنامه نویسی نرم افزار و مدیریت پروژه دارم و چندین سال است که با تجزیه و تحلیل داده ها و یادگیری ماشین در محیط شرکت سر و کار دارم. من همچنین در تجزیه و تحلیل داده ها (مانند پایگاه های داده رابطه ای و زبان SQL)، الگوریتم های عددی (به عنوان مثال ادغام ODE، الگوریتم های بهینه سازی) و شبیه سازی (مانند تکنیک های مونت کارلو) مهارت دارم. من مقالات زیادی در مورد یادگیری ماشینی، R و Python نوشتهام و نویسنده برتر رسانه در رده هوش مصنوعی بودهام.
نمایش نظرات