آموزش پاکسازی داده در پایتون - آخرین آپدیت

دانلود Data Cleaning in Python

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

آماده‌سازی، ساختاردهی و نرمال‌سازی داده‌ها

پاکسازی داده (Data Cleaning یا Data Cleansing) به عنوان یک مرحله پیش پردازش برای سازگارتر و با کیفیت‌تر کردن داده‌ها قبل از آموزش مدل‌های پیش‌بینی‌کننده، انجام می‌شود.

پیش‌نیازها: مبانی پایتون

پاکسازی داده (Data Cleaning یا Data Cleansing) از منظر ساخت سیستم‌های هوشمند خودکار، اهمیت بسیار زیادی دارد. پاکسازی داده، یک مرحله پیش پردازش است که اعتبار، دقت، کامل بودن، سازگاری و یکنواختی داده‌ها را بهبود می‌بخشد. این فرآیند برای ساخت مدل‌های یادگیری ماشین قابل اعتماد که می‌توانند نتایج خوبی تولید کنند، ضروری است. در غیر این صورت، هرچقدر هم که مدل عالی باشد، نمی‌توان به نتایج آن اعتماد کرد. مبتدیان یادگیری ماشین، کار خود را با مجموعه‌داده‌های عمومی که به طور کامل با چنین مسائلی تجزیه و تحلیل شده‌اند آغاز می‌کنند و بنابراین آماده استفاده برای آموزش مدل‌ها و کسب نتایج خوب هستند. اما این واقعیت با نحوه واقعی داده‌ها در دنیای واقعی بسیار متفاوت است. مشکلات رایج داده‌ها ممکن است شامل مقادیر گمشده، مقادیر نویز یا داده‌های پرت تک‌متغیره (univariate outliers)، داده‌های پرت چندمتغیره (multivariate outliers)، داده‌های تکراری، بهبود کیفیت داده‌ها از طریق استانداردسازی و نرمال‌سازی آن، و مدیریت ویژگی‌های دسته‌ای (categorical features) باشد. مجموعه‌داده‌هایی که در فرم خام هستند و تمام این مشکلات را دارند، بدون آگاهی از مراحل پاکسازی داده و پیش پردازش، قابل استفاده نخواهند بود. داده‌هایی که مستقیماً از منابع آنلاین متعدد برای ساخت اپلیکیشن‌های مفید به دست می‌آیند، حتی بیشتر در معرض چنین مشکلاتی قرار دارند. بنابراین، یادگیری مهارت‌های پاکسازی داده به کاربران کمک می‌کند تا تحلیل‌های مفیدی با داده‌های کسب‌وکار خود انجام دهند. در غیر این صورت، عبارت "garbage in garbage out" (ورودی زباله، خروجی زباله) به این واقعیت اشاره دارد که بدون رفع مشکلات داده‌ها، هرچقدر هم مدل کارآمد باشد، نتایج غیرقابل اعتماد خواهند بود.

در این دوره، ما مشکلات رایج داده‌ها را که از منابع مختلف می‌آیند، مورد بحث قرار می‌دهیم. همچنین نحوه رفع این مشکلات را به طور کامل مورد بحث و پیاده‌سازی قرار خواهیم داد. هر مفهوم شامل سه بخش است: توضیح نظری، ارزیابی ریاضی و کد. سخنرانی‌های *.1.* به ارزیابی نظری و ریاضی یک مفهوم اشاره دارند، در حالی که سخنرانی‌های *.2.* به کد عملی هر مفهوم اشاره می‌کنند. در *.1.*، ستاره اول (*) به شماره بخش اشاره دارد، در حالی که ستاره دوم (*) به شماره سخنرانی در داخل یک بخش اشاره می‌کند. تمام کدها در پایتون با استفاده از Jupyter Notebook نوشته شده‌اند.


سرفصل ها و درس ها

مقدمه Introduction

  • مقدمه Introduction

  • کیفیت داده‌ها Quality of Data

  • مقادیر گمشده، نویز و داده‌های پرت Missing Values, Noise and Outliers

  • مثال‌هایی از ناهنجاری‌ها Examples of Anomalies

  • مدرس Instructor

شناسایی مقادیر گمشده و نویز (داده‌های پرت تک‌متغیره) Detecting Missing and Noise Values (Univariate Outliers)

  • 2.1.1 شناسایی ناهنجاری (میانه) 2.1.1 Anomaly Detection (Median)

  • 2.2.1 پیاده‌سازی شناسایی مقادیر گمشده 2.2.1 Implementing Detection of Missing Values

  • 2.2.2 پیاده‌سازی شناسایی مبتنی بر میانه (زمینه سراسری) 2.2.2 Implementing Median based Detection (Global Context)

  • 2.2.3 پیاده‌سازی شناسایی مبتنی بر میانه (زمینه محلی) 2.2.3 Implementing Median based Detection (Local Context)

  • 2.1.2 شناسایی ناهنجاری (میانگین) 2.1.2 Anomaly Detection (Mean)

  • 2.2.4 پیاده‌سازی شناسایی مقادیر نویز مبتنی بر میانگین 2.2.4 Implementing Mean based Detection of Noise values

  • 2.1.3 شناسایی ناهنجاری (Z-score) 2.1.3 Anomally Detection (Z-score)

  • 2.2.5 پیاده‌سازی شناسایی مبتنی بر Z-score 2.2.5 Implementing Z-score based Detection

  • 2.1.4 شناسایی ناهنجاری (دامنه بین چارکی) 2.1.4 Anomally Detection (Interquartile Range)

  • 2.2.6 پیاده‌سازی دامنه بین چارکی برای شناسایی نویز 2.2.6 Implementing Interquartile Range for Noise Detection

مدیریت مقادیر گمشده و نویز (داده‌های پرت تک‌متغیره) Handling Missing and Noise Values (Univariate Outliers)

  • 3.1.1 رویکردهای مدیریت ناهنجاری‌ها 3.1.1 Approaches to Handle Anomalies

  • 3.1.2 استراتژی حذف 3.1.2 Deletion Strategy

  • 3.2.1 حذف مقادیر گمشده 3.2.1 Deleting Missing Values

  • 3.1.3 زمینه سراسری و محلی 3.1.3 Global and Local Context

  • 3.1.4 استراتژی جایگزینی 3.1.4 Replacement Strategy

  • 3.1.5 معیارهای آماری 3.1.5 Statistical Measures

  • 3.2.2 پیاده‌سازی درون‌یابی با مُد 3.2.2 Implementing Imputation with Mode

  • 3.2.3 پیاده‌سازی درون‌یابی با میانه و میانگین 3.2.3 Implementing Imputation with Median and Mean

داده‌های پرت چندمتغیره Multivariate Outliers

  • 4.1.1 داده‌های پرت چندمتغیره 4.1.1 Multivariate Outliers

  • 4.1.2 ضریب پرت محلی (Local Outlier Factor) 4.1.2 Local Outlier Factor

  • 4.2.1 پیاده‌سازی LOF برای شناسایی داده‌های پرت 4.2.1 Implementing LOF for Outlier Detection

  • 4.1.3 خوشه‌بندی برای شناسایی داده‌های پرت چندمتغیره 4.1.3 Clustering for Multivariate Outlier Detection

  • 4.2.2 پیاده‌سازی خوشه‌بندی DBSCAN برای شناسایی داده‌های پرت 4.2.2 Implementing DBSCAN Clustering for Outlier Detection

  • 4.1.3 بصری‌سازی داده‌ها برای شناسایی داده‌های پرت 4.1.3 Data Visualization for Outlier Detection

  • 4.2.3 پیاده‌سازی بصری‌سازی داده‌ها 4.2.3 Implementing Data Visualization

ناهنجاری‌ها در داده‌های متنی Anomalies in Textual data

  • 5.1.1 نرمال‌سازی ناهنجاری‌های متنی 5.1.1 Normalizing Text Anomalies

  • 5.2.1 حروف کوچک، فاصله‌ها، علائم نگارشی 5.2.1 Lowercase, Whitespaces, Punctuations

  • 5.2.2 حذف کلمات توقف (Stopwords Removal) 5.2.2 Stopwords Removal

  • 5.1.2 عبارات با قاعده (Regular Expressions) 5.1.2 Regular Expressions

  • 5.2.4 پیاده‌سازی عبارات با قاعده برای فیلتر کردن کلمات توقف 5.2.4 Implementing Regular Expressions for Filtering stopwords

  • 5.2.3 ریشه‌یابی و لغت‌سازی (Stemming and Lemmatization) 5.2.3 Stemming and Lemmatization

  • برچسب‌گذاری اجزای کلام (POS Tagging) Parts-of-speech (POS) Tagging

  • 5.2.6 تقسیم‌بندی و توکن‌بندی متن 5.2.6 Text Segmentation and Tokenization

ساختاردهی اسناد متنی Structuring Textual Documents

  • 6.1.1 ساختاردهی داده‌های متنی 6.1.1 Structuring Textual Data

  • 6.1.2 رویکرد Bag-of-Words (BoW) 6.1.2 Bag-of-Words (BoW) Approach

  • 6.1.3 نمایش باینری و TF-IDF 6.1.3 Binary and TF-IDF Representation

  • 6.2.1 پیاده‌سازی نمایش مجموعه مستندات (One Document Corpus Representation) 6.2.1 Implementing One Document Corpus Representation

  • 6.2.2 پیاده‌سازی نمایش مجموعه مستندات چندگانه (Multi-doc Corpus Representation) 6.2.2 Implementing Multi-doc Corpus Representation

  • 6.2.3 تنظیم پارامترها برای بهبود نمایش 6.2.3 Tuning Parameters to Improve Representation

  • 6.2.4 پیاده‌سازی طرح نمایش TF-IDF 6.2.4 Implementing TF-IDF Representation Scheme

  • 6.2.5 پیاده‌سازی نمایش مجموعه داده‌ی ساختگی (Dummy Dataset Representation) 6.2.5 Implementing Dummy Dataset Representation

  • 6.2.6 پیاده‌سازی نمایش مجموعه داده مخزن UCI (UCI Repository Dataset Representation) 6.2.6 Implementing UCI Repository Dataset Representation

مقیاس‌بندی ویژگی‌ها (نرمال‌سازی) Feature Scaling (Normalization)

  • 7.1.1 چرا مقیاس‌بندی ویژگی‌ها 7.1.1 Why Feature Scaling

  • 7.1.2 نرمال‌سازی ویژگی‌ها (Min Max Scaler) 7.1.2 Feature Normalization (Min Max Scaler)

  • 7.2.1 پیاده‌سازی نرمال‌سازی ویژگی‌ها 7.2.1 Implementing Feature Normalization

  • 7.1.3 استانداردسازی ویژگی‌ها (Standard Scaler) 7.1.3 Feature Standardization (Standard Scaler)

  • 7.2.2 پیاده‌سازی استانداردسازی ویژگی‌ها 7.2.2 Implementing Feature Standardization

  • 7.1.4 مقیاس‌بندی ویژگی مقاوم (Robust Feature Scaler) 7.1.4 Robust Feature Scaler

  • 7.2.3 پیاده‌سازی مقیاس‌بندی مقاوم 7.2.3 Implementation of Robust Scaler

مدیریت ویژگی‌های طبقه‌بندی‌شده Handling Categorical Features

  • 8.1.1 انواع ویژگی‌ها 8.1.1 Types of Features

  • 8.2.1 مدیریت ویژگی‌های ترتیبی طبقه‌بندی‌شده 8.2.1 Handling Categorical Ordinal Features

  • 8.2.2 ویژگی‌های اسمی طبقه‌بندی‌شده 8.2.2 Categorical Nominal Features

  • 8.2.3 کدگذاری توالی متن (برای مدل‌های یادگیری عمیق) 8.2.3 Text Sequence Encoding (for Deep Learning Models)

مرور یادگیری ماشین Machine Learning Overview

  • یادگیری قیاسی و یادگیری استقرایی Deductive Learning and Inductive Learning

  • یادگیری از ویژگی‌ها Learning from Features

  • یادگیری ماشین (مقدمه) Machine Learning (Introduction)

  • یادگیری با نظارت و بدون نظارت Supervised and Unsupervised Learning

  • تشخیص الگو Pattern Recognition

  • خط لوله پروژه یادگیری ماشین Machine Learning Project Pipeline

گردآوری داده‌ها Data Acquisition

  • گردآوری داده‌ها از صفحات وب Data Acquisition from Webpages

نمایش نظرات

آموزش پاکسازی داده در پایتون
جزییات دوره
5.5 hours
65
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
2,507
3.7 از 5
دارد
دارد
دارد
Taimoor khan
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Taimoor khan Taimoor khan

دستیار استاد