آموزش پاکسازی داده ها در پایتون

Data Cleaning in Python

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: پیش پردازش، ساختار و عادی سازی داده ها پاکسازی یا پاکسازی داده ها به عنوان یک گام پیش پردازش در جهت سازگاری بیشتر و کیفیت بالای داده ها قبل از آموزش مدل های پیش بینی. پیش نیازها:مبانی پایتون

پاکسازی داده ها یا پاکسازی داده ها از دیدگاه ساخت سیستم های خودکار هوشمند بسیار مهم است. پاکسازی داده ها یک مرحله پیش پردازش است که اعتبار، دقت، کامل بودن، سازگاری و یکنواختی داده ها را بهبود می بخشد. برای ساختن مدل‌های یادگیری ماشینی قابل اعتماد که می‌توانند نتایج خوبی ایجاد کنند، ضروری است. در غیر این صورت، هر چقدر هم که مدل خوب باشد، نمی توان به نتایج آن اعتماد کرد. مبتدیان با یادگیری ماشین شروع به کار با مجموعه داده های در دسترس عمومی می کنند که به طور کامل با چنین مسائلی تجزیه و تحلیل می شوند و بنابراین آماده استفاده برای مدل های آموزشی و گرفتن نتایج خوب هستند. اما در دنیای واقعی با داده ها فاصله زیادی دارد. مشکلات رایج داده ها ممکن است شامل مقادیر از دست رفته، مقادیر نویز یا نقاط پرت تک متغیره، پرت چند متغیره، تکراری شدن داده ها، بهبود کیفیت داده ها از طریق استانداردسازی و عادی سازی آن ها، برخورد با ویژگی های طبقه بندی شده باشد. مجموعه داده هایی که به صورت خام هستند و همه این مسائل را دارند، بدون اطلاع از مراحل پاکسازی و پیش پردازش داده ها، قابل استفاده نیستند. داده‌هایی که مستقیماً از چندین منبع آنلاین به دست می‌آیند، برای ساختن برنامه‌های کاربردی مفید، حتی بیشتر در معرض چنین مشکلاتی هستند. بنابراین، یادگیری مهارت های پاکسازی داده ها به کاربران کمک می کند تا تجزیه و تحلیل مفیدی را با داده های کسب و کار خود انجام دهند. در غیر این صورت، اصطلاح زباله در زباله ها به این واقعیت اشاره دارد که بدون مرتب سازی مسائل موجود در داده ها، مهم نیست که مدل چقدر کارآمد باشد، نتایج غیرقابل اعتماد خواهد بود.

در این دوره، مشکلات رایج داده‌ها را که از منابع مختلف می‌آیند، مورد بحث قرار می‌دهیم. ما همچنین در مورد چگونگی حل این مسائل به طور کامل بحث و اجرا می کنیم. هر مفهوم دارای سه جزء است که عبارتند از تبیین نظری، ارزیابی ریاضی و کد. سخنرانی *.1.* به تئوری و ارزیابی ریاضی یک مفهوم اشاره دارد در حالی که سخنرانی *.2.* به کد عملی هر مفهوم اشاره دارد. در *.1.*، اولین (*) به شماره بخش اشاره دارد، در حالی که (*) دوم به شماره سخنرانی در یک بخش اشاره دارد. همه کدها در پایتون با استفاده از Jupyter Notebook نوشته شده اند.


سرفصل ها و درس ها

معرفی Introduction

  • معرفی Introduction

  • کیفیت داده ها Quality of Data

  • ارزش‌های گمشده، نویز و موارد پرت Missing Values, Noise and Outliers

  • نمونه هایی از ناهنجاری ها Examples of Anomalies

  • مربی Instructor

تشخیص مقادیر مفقود و نویز (غیر متغیر تک متغیره) Detecting Missing and Noise Values (Univariate Outliers)

  • 2.1.1 تشخیص ناهنجاری (میانگین) 2.1.1 Anomaly Detection (Median)

  • 2.2.1 اجرای تشخیص مقادیر گمشده 2.2.1 Implementing Detection of Missing Values

  • 2.2.2 پیاده سازی تشخیص مبتنی بر میانه (زمینه جهانی) 2.2.2 Implementing Median based Detection (Global Context)

  • 2.2.3 پیاده سازی تشخیص مبتنی بر میانه (زمینه محلی) 2.2.3 Implementing Median based Detection (Local Context)

  • 2.1.2 تشخیص ناهنجاری (میانگین) 2.1.2 Anomaly Detection (Mean)

  • 2.2.4 پیاده سازی تشخیص مبتنی بر میانگین مقادیر نویز 2.2.4 Implementing Mean based Detection of Noise values

  • 2.1.3 تشخیص غیرعادی (نمره Z) 2.1.3 Anomally Detection (Z-score)

  • 2.2.5 پیاده سازی تشخیص مبتنی بر امتیاز Z 2.2.5 Implementing Z-score based Detection

  • 2.1.4 تشخیص غیرعادی (محدوده بین چارکی) 2.1.4 Anomally Detection (Interquartile Range)

  • 2.2.6 پیاده سازی محدوده بین چارکی برای تشخیص نویز 2.2.6 Implementing Interquartile Range for Noise Detection

رسیدگی به مقادیر مفقود و نویز (غیر متغیر تک متغیره) Handling Missing and Noise Values (Univariate Outliers)

  • 3.1.1 رویکردهای رسیدگی به ناهنجاری ها 3.1.1 Approaches to Handle Anomalies

  • 3.1.2 استراتژی حذف 3.1.2 Deletion Strategy

  • 3.2.1 حذف مقادیر از دست رفته 3.2.1 Deleting Missing Values

  • 3.1.3 زمینه جهانی و محلی 3.1.3 Global and Local Context

  • 3.1.4 استراتژی جایگزینی 3.1.4 Replacement Strategy

  • 3.1.5 اقدامات آماری 3.1.5 Statistical Measures

  • 3.2.2 پیاده سازی Imputation با Mode 3.2.2 Implementing Imputation with Mode

  • 3.2.3 اجرای انتساب با میانه و میانگین 3.2.3 Implementing Imputation with Median and Mean

پرت چند متغیره Multivariate Outliers

  • 4.1.1 پرت چند متغیره 4.1.1 Multivariate Outliers

  • 4.1.2 عامل پرت محلی 4.1.2 Local Outlier Factor

  • 4.2.1 پیاده سازی LOF برای تشخیص بیرونی 4.2.1 Implementing LOF for Outlier Detection

  • 4.1.3 خوشه‌بندی برای تشخیص پرت چند متغیره 4.1.3 Clustering for Multivariate Outlier Detection

  • 4.2.2 پیاده سازی DBSCAN Clustering برای تشخیص نقاط پرت 4.2.2 Implementing DBSCAN Clustering for Outlier Detection

  • 4.1.3 تجسم داده ها برای تشخیص نقاط پرت 4.1.3 Data Visualization for Outlier Detection

  • 4.2.3 پیاده سازی تجسم داده ها 4.2.3 Implementing Data Visualization

ناهنجاری در داده های متنی Anomalies in Textual data

  • 5.1.1 عادی سازی ناهنجاری های متن 5.1.1 Normalizing Text Anomalies

  • 5.2.1 حروف کوچک، فضاهای سفید، علائم نگارشی 5.2.1 Lowercase, Whitespaces, Punctuations

  • 5.2.2 حذف کلمات توقف 5.2.2 Stopwords Removal

  • 5.1.2 عبارات منظم 5.1.2 Regular Expressions

  • 5.2.4 پیاده سازی عبارات منظم برای فیلتر کردن کلمات توقف 5.2.4 Implementing Regular Expressions for Filtering stopwords

  • 5.2.3 ریشه یابی و یکپارچه سازی 5.2.3 Stemming and Lemmatization

  • برچسب‌گذاری بخش‌های گفتار (POS). Parts-of-speech (POS) Tagging

  • 5.2.6 تقسیم بندی متن و نشانه گذاری 5.2.6 Text Segmentation and Tokenization

ساختار اسناد متنی Structuring Textual Documents

  • 6.1.1 ساختار داده های متنی 6.1.1 Structuring Textual Data

  • 6.1.2 رویکرد کیسه کلمات (BoW). 6.1.2 Bag-of-Words (BoW) Approach

  • 6.1.3 نمایندگی باینری و TF-IDF 6.1.3 Binary and TF-IDF Representation

  • 6.2.1 اجرای یک مجموعه سند 6.2.1 Implementing One Document Corpus Representation

  • 6.2.2 اجرای نمایش چند سندی 6.2.2 Implementing Multi-doc Corpus Representation

  • 6.2.3 تنظیم پارامترها برای بهبود نمایش 6.2.3 Tuning Parameters to Improve Representation

  • 6.2.4 اجرای طرح نمایندگی TF-IDF 6.2.4 Implementing TF-IDF Representation Scheme

  • 6.2.5 اجرای نمایش مجموعه داده ساختگی 6.2.5 Implementing Dummy Dataset Representation

  • 6.2.6 اجرای نمایش مجموعه داده مخزن UCI 6.2.6 Implementing UCI Repository Dataset Representation

مقیاس‌بندی ویژگی (نرمال‌سازی) Feature Scaling (Normalization)

  • 7.1.1 چرا مقیاس گذاری ویژگی 7.1.1 Why Feature Scaling

  • 7.1.2 عادی سازی ویژگی ها (حداقل مقیاس کننده) 7.1.2 Feature Normalization (Min Max Scaler)

  • 7.2.1 اجرای عادی سازی ویژگی 7.2.1 Implementing Feature Normalization

  • 7.1.3 استانداردسازی ویژگی (مقیاس‌کننده استاندارد) 7.1.3 Feature Standardization (Standard Scaler)

  • 7.2.2 اجرای استانداردسازی ویژگی 7.2.2 Implementing Feature Standardization

  • 7.1.4 مقیاس کننده ویژگی قوی 7.1.4 Robust Feature Scaler

  • 7.2.3 پیاده سازی مقیاس کننده قوی 7.2.3 Implementation of Robust Scaler

مدیریت ویژگی های دسته بندی Handling Categorical Features

  • 8.1.1 انواع ویژگی ها 8.1.1 Types of Features

  • 8.2.1 رسیدگی به ویژگی های ترتیبی دسته بندی 8.2.1 Handling Categorical Ordinal Features

  • 8.2.2 ویژگی های اسمی طبقه بندی شده 8.2.2 Categorical Nominal Features

  • 8.2.3 رمزگذاری توالی متن (برای مدل های یادگیری عمیق) 8.2.3 Text Sequence Encoding (for Deep Learning Models)

مروری بر یادگیری ماشین Machine Learning Overview

  • یادگیری قیاسی و یادگیری استقرایی Deductive Learning and Inductive Learning

  • یادگیری از ویژگی ها Learning from Features

  • یادگیری ماشینی (مقدمه) Machine Learning (Introduction)

  • یادگیری تحت نظارت و بدون نظارت Supervised and Unsupervised Learning

  • الگو شناسی Pattern Recognition

  • خط لوله پروژه یادگیری ماشین Machine Learning Project Pipeline

اکتساب داده ها Data Acquisition

  • اکتساب داده از صفحات وب Data Acquisition from Webpages

نمایش نظرات

آموزش پاکسازی داده ها در پایتون
جزییات دوره
5.5 hours
65
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
2,149
3.8 از 5
دارد
دارد
دارد
Taimoor khan
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Taimoor khan Taimoor khan

دستیار استاد