آموزش علم داده در پایتون: آماده سازی داده و EDA

Data Science in Python: Data Prep & EDA

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: یاد بگیرید چگونه از پایتون و پانداها برای جمع‌آوری، تمیز کردن، کاوش و تجزیه و تحلیل داده‌ها برای علم داده و یادگیری ماشین استفاده کنید. منابع داده مورد نیاز برای تجزیه و تحلیل شما واردات و صادرات فایل‌های مسطح، کتاب‌های کار اکسل، و جداول پایگاه داده SQL با استفاده از داده‌های Pandas Clean با تبدیل انواع داده‌ها، رسیدگی به مسائل رایج داده، و ایجاد ستون‌های جدید برای تجزیه و تحلیل انجام تجزیه و تحلیل داده‌های اکتشافی (EDA) با مرتب‌سازی، فیلتر کردن ، گروه بندی و تجسم داده ها برای کشف الگوها و بینش ها آماده سازی داده ها برای مدل های یادگیری ماشینی با پیوستن به جداول، تجمیع ردیف ها و استفاده از تکنیک های مهندسی ویژگی ها و پاندا توصیه می شود، اما لازم نیست

این یک دوره آموزشی عملی و مبتنی بر پروژه است که برای کمک به شما در تسلط بر اجزای سازنده اصلی Python برای علم داده طراحی شده است.


ما با معرفی زمینه‌های علم داده و یادگیری ماشین، بحث در مورد تفاوت بین یادگیری تحت نظارت و بدون نظارت، و بررسی گردش کار علم داده که در طول دوره استفاده خواهیم کرد، شروع می‌کنیم.


از آنجا به مراحل آماده سازی داده EDA گردش کار می پردازیم. شما یاد خواهید گرفت که چگونه یک پروژه علم داده را در نظر بگیرید، از پانداها برای جمع‌آوری داده‌ها از منابع متعدد و رسیدگی به مسائل رایج تمیز کردن داده‌ها استفاده کنید، و تجزیه و تحلیل داده‌های اکتشافی را با استفاده از تکنیک‌هایی مانند فیلتر کردن، گروه‌بندی، و تجسم داده‌ها انجام دهید.


در طول دوره، شما نقش یک دانشمند داده جونیور را برای Maven Music بازی خواهید کرد، یک سرویس پخش جریانی که با ریزش مشتریان دست و پنجه نرم می کند. با استفاده از مهارت‌هایی که در طول دوره یاد می‌گیرید، از پایتون برای جمع‌آوری، تمیز کردن و کاوش داده‌ها برای ارائه بینش در مورد مشتریانشان استفاده می‌کنید.


آخرین اما نه کم‌اهمیت، آماده‌سازی داده‌ها برای مدل‌های یادگیری ماشینی را با پیوستن به چندین جدول، تنظیم دانه‌بندی ردیف، و مهندسی زمینه‌ها و ویژگی‌های مفید تمرین خواهید کرد.


خلاصه دوره:


  • مقدمه ای بر علم داده

    • معرفی رشته علم داده، مرور مهارت های ضروری و معرفی هر مرحله از گردش کار علم داده


  • محدوده یک پروژه

    • فرآیند محدوده‌بندی یک پروژه علم داده را مرور کنید، از جمله طوفان فکری برای مشکلات و راه‌حل‌ها، انتخاب تکنیک‌ها و تعیین اهداف واضح


  • جمع آوری داده ها

    • فایل‌های مسطح را در یک Pandas DataFrame در پایتون بخوانید و قالب‌های رایج منابع داده، از جمله صفحات گسترده Excel و پایگاه‌های داده SQL را مرور کنید


  • پاک کردن داده ها

    • انواع داده‌ها را شناسایی و تبدیل کنید، مشکلات رایج داده‌ها مانند مقادیر از دست رفته، تکراری‌ها و نقاط پرت را پیدا و برطرف کنید، و ستون‌های جدیدی برای تجزیه و تحلیل ایجاد کنید


  • تجزیه و تحلیل داده های اکتشافی

    • مجموعه داده‌ها را کاوش کنید تا با مرتب‌سازی، فیلتر کردن و گروه‌بندی داده‌ها، اطلاعات بینش را کشف کنید، سپس آن‌ها را با استفاده از انواع نمودارهای رایج مانند هیستوگرام‌های نمودار پراکنده تجسم کنید


  • پروژه میان دوره ای

    • مهارت‌های خود را با تمیز کردن، کاوش و تجسم داده‌ها از مجموعه داده‌های کاملاً جدید حاوی رتبه‌بندی فیلم Rotten Tomatoes آزمایش کنید


  • آماده سازی برای مدل سازی

    • داده‌های خود را طوری ساختار دهید که با ایجاد یک جدول عددی و غیر تهی و مهندسی ویژگی‌های جدید، برای مدل‌های یادگیری ماشین آماده شوند


  • پروژه دوره نهایی

    • با جمع‌آوری، تمیز کردن، کاوش و آماده‌سازی چندین مجموعه داده برای Maven Music، تمام مهارت‌های آموخته‌شده را در طول دوره به کار ببرید


__________


آماده شیرجه رفتن هستید؟ امروز بپیوندید و به موارد زیر دسترسی فوری و مادام العمر داشته باشید:


  • 8.5 ساعت ویدئو با کیفیت بالا

  • 16 تکلیف

  • 7 آزمون

  • 2 پروژه (1 میان دوره، 1 نهایی)

  • علم داده در پایتون: کتاب الکترونیکی Data Prep EDA (190+ صفحه)

  • راه حل فایل های پروژه قابل دانلود

  • پشتیبانی تخصصی و انجمن پرسش و پاسخ

  • 30 روز ضمانت رضایت Udemy


اگر دانشمند داده مشتاقی هستید که به دنبال معرفی دنیای یادگیری ماشین با پایتون هستید، این دوره برای شما مناسب است.


یادگیری مبارک!

-آلیس ژائو (مدرس علوم داده متخصص پایتون، Maven Analytics)


سرفصل ها و درس ها

شروع شدن Getting Started

  • معرفی دوره Course Introduction

  • درباره این سریال About This Series

  • ساختار و طرح کلی دوره Course Structure & Outline

  • مرا بخوانید: نکات مهم برای دانشجویان جدیدالورود READ ME: Important Notes for New Students

  • دانلود: منابع دوره DOWNLOAD: Course Resources

  • معرفی پروژه دوره Introducing the Course Project

  • تعیین انتظارات Setting Expectations

مقدمه ای بر علم داده Intro to Data Science

  • بخش مقدمه Section Introduction

  • علم داده چیست؟ What is Data Science?

  • مجموعه مهارت های علم داده Data Science Skill Set

  • یادگیری ماشینی چیست؟ What is Machine Learning?

  • الگوریتم های رایج یادگیری ماشین Common Machine Learning Algorithms

  • گردش کار علم داده Data Science Workflow

  • مرحله 1: تعیین محدوده یک پروژه Step 1: Scoping a Project

  • مرحله 2: جمع آوری داده ها Step 2: Gathering Data

  • مرحله 3: پاک کردن داده ها Step 3: Cleaning Data

  • مرحله 4: کاوش داده ها Step 4: Exploring Data

  • مرحله 5: مدل سازی داده ها Step 5: Modeling Data

  • مرحله 6: اشتراک گذاری بینش Step 6: Sharing Insights

  • آماده سازی داده و EDA Data Prep & EDA

  • خوراکی های کلیدی Key Takeaways

  • مقدمه ای بر علم داده Intro to Data Science

محدوده یک پروژه Scoping a Project

  • بخش مقدمه Section Introduction

  • مراحل محدوده پروژه Project Scoping Steps

  • مانند یک کاربر نهایی فکر کنید Think Like an End User

  • مشکلات طوفان فکری Brainstorm Problems

  • راه حل های طوفان فکری Brainstorm Solutions

  • یادگیری تحت نظارت در مقابل یادگیری بدون نظارت Supervised vs Unsupervised Learning

  • نیازهای داده را شناسایی کنید Identify Data Requirements

  • ساختارهای داده Data Structures

  • ویژگی های مدل Model Features

  • منابع اطلاعات Data Sources

  • محدوده داده Data Scope

  • دامنه را خلاصه کنید Summarize the Scope

  • خوراکی های کلیدی Key Takeaways

  • محدوده یک پروژه Scoping a Project

نصب نوت بوک Jupyter Installing Jupyter Notebook

  • بخش مقدمه Section Introduction

  • چرا پایتون؟ Why Python?

  • نصب آناکوندا Installing Anaconda

  • راه اندازی نوت بوک Jupyter Launching Jupyter Notebook

  • رابط نوت بوک The Notebook Interface

  • ویرایش در مقابل حالت فرمان Edit vs Command Mode

  • سلول کد The Code Cell

  • سلول مارکداون The Markdown Cell

  • منابع مفید و نکات کلیدی Helpful Resources & Key Takeaways

  • نصب نوت بوک Jupyter Installing Jupyter Notebook

جمع آوری اطلاعات Gathering Data

  • بخش مقدمه Section Introduction

  • فرآیند جمع آوری داده ها Data Gathering Process

  • منابع اطلاعات Data Sources

  • داده های ساختاریافته در مقابل داده های بدون ساختار Structured vs Unstructured Data

  • Pandas DataFrame The Pandas DataFrame

  • خواندن فایل های Flat Reading Flat Files

  • نسخه ی نمایشی: خواندن فایل های مسطح DEMO: Reading Flat Files

  • خواندن فایل های اکسل Reading Excel Files

  • اتصال به پایگاه داده SQL Connecting to a SQL Database

  • کاوش سریع یک DataFrame Quickly Exploring a DataFrame

  • تکلیف: جمع آوری داده ها ASSIGNMENT: Gathering Data

  • راه حل: جمع آوری داده ها SOLUTION: Gathering Data

  • خوراکی های کلیدی Key Takeaways

  • جمع آوری اطلاعات Gathering Data

پاک کردن داده ها Cleaning Data

  • بخش مقدمه Section Introduction

  • بررسی اجمالی پاکسازی داده ها Data Cleaning Overview

  • انواع داده ها Data Types

  • تبدیل به DateTime Converting to DateTime

  • تبدیل به عددی Converting to Numeric

  • DEMO: تبدیل انواع داده ها DEMO: Converting Data Types

  • تکلیف: تبدیل انواع داده ها ASSIGNMENT: Converting Data Types

  • راه حل: تبدیل انواع داده ها SOLUTION: Converting Data Types

  • بررسی اجمالی مسائل مربوط به داده ها Data Issues Overview

  • یافتن داده های گمشده Finding Missing Data

  • DEMO: یافتن داده های گمشده DEMO: Finding Missing Data

  • رسیدگی به داده های از دست رفته Handling Missing Data

  • حذف داده های از دست رفته Removing Missing Data

  • وارد کردن داده های از دست رفته Imputing Missing Data

  • حل و فصل داده های از دست رفته Resolving Missing Data

  • تکلیف: داده های از دست رفته ASSIGNMENT: Missing Data

  • راه حل: داده های از دست رفته SOLUTION: Missing Data

  • یافتن متن ناسازگار و اشتباهات املایی Finding Inconsistent Text & Typos

  • مدیریت متن و اشتباهات تایپی ناسازگار Handling Inconsistent Text & Typos

  • به روز رسانی مقادیر بر اساس یک شرط منطقی Updating Values Based on a Logical Condition

  • ارزش های نقشه برداری Mapping Values

  • متن تمیز کردن Cleaning Text

  • تکلیف: متن و اشتباهات املایی ناسازگار ASSIGNMENT: Inconsistent Text & Typos

  • راه حل: متن ناسازگار و اشتباهات تایپی SOLUTION: Inconsistent Text & Typos

  • یافتن داده های تکراری Finding Duplicate Data

  • مدیریت داده های تکراری Handling Duplicate Data

  • تکلیف: داده های تکراری ASSIGNMENT: Duplicate Data

  • راه حل: داده های تکراری SOLUTION: Duplicate Data

  • یافتن موارد پرت Finding Outliers

  • هیستوگرام ها Histograms

  • توطئه های جعبه Box Plots

  • انحراف معیار Standard Deviation

  • رسیدگی به موارد پرت Handling Outliers

  • نسخه ی نمایشی: داده های پاک شده را بررسی کنید DEMO: Review Cleaned Data

  • تکلیف: موارد پرت ASSIGNMENT: Outliers

  • راه حل: موارد پرت SOLUTION: Outliers

  • ایجاد ستون های جدید Creating New Columns

  • ایجاد ستون های عددی Creating Numeric Columns

  • DEMO: ایجاد ستون های عددی DEMO: Creating Numeric Columns

  • تکلیف: ایجاد ستون های عددی ASSIGNMENT: Creating Numeric Columns

  • راه حل: ایجاد ستون های عددی SOLUTION: Creating Numeric Columns

  • ایجاد ستون های DateTime Creating DateTime Columns

  • DEMO: ایجاد ستون های DateTime DEMO: Creating DateTime Columns

  • تکلیف: ایجاد ستون های DateTime ASSIGNMENT: Creating DateTime Columns

  • راه حل: ایجاد ستون های DateTime SOLUTION: Creating DateTime Columns

  • ایجاد ستون های متنی Creating Text Columns

  • DEMO: ایجاد ستون های متنی DEMO: Creating Text Columns

  • تکلیف: ایجاد ستون های متنی ASSIGNMENT: Creating Text Columns

  • راه حل: ایجاد ستون های متنی SOLUTION: Creating Text Columns

  • خوراکی های کلیدی Key Takeaways

  • پاک کردن داده ها Cleaning Data

تجزیه و تحلیل داده های اکتشافی Exploratory Data Analysis

  • بخش مقدمه Section Introduction

  • بررسی اجمالی تجزیه و تحلیل داده های اکتشافی Exploratory Data Analysis Overview

  • فیلتر کردن Filtering

  • DEMO: فیلتر کردن DEMO: Filtering

  • مرتب سازی Sorting

  • دمو: مرتب سازی DEMO: Sorting

  • گروه بندی Grouping

  • DEMO: گروه بندی DEMO: Grouping

  • تکلیف: کاوش داده ها ASSIGNMENT: Exploring Data

  • راه حل: کاوش داده ها SOLUTION: Exploring Data

  • نمای کلی تجسم داده ها Data Visualization Overview

  • تجسم داده ها با پانداها Data Visualization with Pandas

  • DEMO: تجسم داده ها با پانداها DEMO: Data Visualization with Pandas

  • قطعه های جفت Pair Plots

  • DEMO: Pair Plots DEMO: Pair Plots

  • توزیع ها Distributions

  • DEMO: توزیع ها DEMO: Distributions

  • توزیع های مشترک Common Distributions

  • توزیع عادی The Normal Distribution

  • تکلیف: توزیع ها ASSIGNMENT: Distributions

  • راه حل: توزیع ها SOLUTION: Distributions

  • پلات های پراکنده Scatter Plots

  • دمو: طرح های پراکنده DEMO: Scatter Plots

  • همبستگی ها Correlations

  • دمو: همبستگی ها DEMO: Correlations

  • تکلیف: همبستگی ها ASSIGNMENT: Correlations

  • راه حل: همبستگی SOLUTION: Correlations

  • تجسم داده ها در عمل Data Visualization in Practice

  • نکات EDA EDA Tips

  • خوراکی های کلیدی Key Takeaways

  • تجزیه و تحلیل داده های اکتشافی Exploratory Data Analysis

پروژه میان دوره Mid-Course Project

  • بررسی اجمالی پروژه میان دوره Mid-Course Project Overview

  • راه حل: کاوش داده ها SOLUTION: Exploring Data

  • راه حل: ایجاد ستون های جدید SOLUTION: Creating New Columns

  • راه حل: تجسم داده ها SOLUTION: Visualizing Data

آماده شدن برای مدلینگ Preparing for Modeling

  • بخش مقدمه Section Introduction

  • مطالعه موردی: آماده سازی برای مدل سازی Case Study: Preparing for Modeling

  • آماده سازی داده برای EDA در مقابل مدل سازی Data Prep for EDA vs Modeling

  • مراحل آماده سازی مدل Model Preparation Steps

  • ایجاد یک جدول واحد Creating a Single Table

  • در حال الحاق Appending

  • دمو: در حال پیوست DEMO: Appending

  • پیوستن Joining

  • DEMO: پیوستن DEMO: Joining

  • انواع اتصالات Types of Joins

  • DEMO: انواع اتصالات DEMO: Types of Joins

  • DEMO: ایجاد یک جدول واحد DEMO: Creating a Single Table

  • تکلیف: ایجاد یک جدول واحد ASSIGNMENT: Creating a Single Table

  • راه حل: ایجاد یک جدول واحد SOLUTION: Creating a Single Table

  • آماده سازی ردیف ها برای مدل سازی Preparing Rows for Modeling

  • DEMO: آماده سازی ردیف ها برای مدل سازی DEMO: Preparing Rows for Modeling

  • تکلیف: آماده سازی ردیف ها برای مدل سازی ASSIGNMENT: Preparing Rows for Modeling

  • راه حل: آماده سازی ردیف ها برای مدل سازی SOLUTION: Preparing Rows for Modeling

  • آماده سازی ستون ها برای مدل سازی Preparing Columns for Modeling

  • متغیرهای ساختگی Dummy Variables

  • دمو: متغیرهای ساختگی DEMO: Dummy Variables

  • آماده سازی ستون های DateTime Preparing DateTime Columns

  • DEMO: آماده سازی ستون های تاریخ زمان DEMO: Preparing DateTime Columns

  • تکلیف: ستون ها را برای مدل سازی آماده کنید ASSIGNMENT: Prepare Columns for Modeling

  • راه حل: ستون ها را برای مدل سازی آماده کنید SOLUTION: Prepare Columns for Modeling

  • مهندسی ویژگی Feature Engineering

  • تبدیل ویژگی ها Feature Transformations

  • مقیاس بندی ویژگی ها Feature Scaling

  • متغیرهای پروکسی Proxy Variables

  • نکات مهندسی ویژگی Feature Engineering Tips

  • تکلیف: مهندسی ویژگی ASSIGNMENT: Feature Engineering

  • راه حل: مهندسی ویژگی SOLUTION: Feature Engineering

  • پیش نمایش: اعمال الگوریتم ها PREVIEW: Applying Algorithms

  • خوراکی های کلیدی Key Takeaways

  • آماده شدن برای مدلینگ Preparing for Modeling

پروژه دوره نهایی Final Course Project

  • بررسی اجمالی نهایی پروژه Final Project Overview

  • راه حل: جمع آوری داده ها SOLUTION: Gathering Data

  • راه حل: پاک کردن داده ها SOLUTION: Cleaning Data

  • راه حل: تجزیه و تحلیل داده های اکتشافی SOLUTION: Exploratory Data Analysis

  • راه حل: آماده سازی برای مدل سازی SOLUTION: Preparing for Modeling

بسته بندی Wrapping Up

  • درس جایزه BONUS LESSON

نمایش نظرات

آموزش علم داده در پایتون: آماده سازی داده و EDA
جزییات دوره
8.5 hours
180
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
795
4.7 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Maven Analytics Maven Analytics

برنده جایزه تجزیه و تحلیل و آموزش هوش تجاری

Alice Zhao Alice Zhao

مدرس علم داده در Maven Analytics