آموزش مبانی علوم داده: ارزیابی داده ها برای مدل سازی پیش بینی

Data Science Foundations: Data Assessment for Predictive Modeling

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: CRISP-DM ، فرآیند استاندارد بین صنعت برای داده کاوی ، از شش مرحله تشکیل شده است. بیشتر دانشمندان جدید داده ها به سمت مدل سازی می شتابند زیرا این مرحله ای است که آنها بیشترین آموزش را در آن دارند. اما اینکه پروژه موفقیت آمیز باشد یا شکست بخورد در واقع خیلی زودتر مشخص شده است. این دوره یک رویکرد سیستماتیک را برای فهم درک داده ها برای مدل سازی پیش بینی معرفی می کند. مربی کیت مک کورمیک اصول ، دستورالعمل ها و ابزارهایی مانند KNIME و R را برای ارزیابی صحیح یک مجموعه داده برای مناسب بودن آن برای یادگیری ماشین آموزش می دهد. نحوه جمع آوری داده ها ، توصیف داده ها ، کاوش داده ها را با اجرای تجسم های متغیر کشف کنید و کیفیت داده های خود را تأیید کنید و همچنین به مرحله آماده سازی داده ها بروید. این دوره شامل مطالعات موردی و بهترین شیوه ها و همچنین مجموعه چالش ها و راه حل هایی برای افزایش دانش افزایش می یابد. در پایان ، شما باید مهارت های لازم را داشته باشید تا بتوانید به این مرحله حیاتی از همه پروژه های موفق علم داده توجه کافی داشته باشید.
موضوعات شامل:
  • تشخیص ارزیابی داده ها از داده ها
  • تسلط بر چهار وظیفه درک داده
  • جمع آوری داده های اولیه
  • شناسایی سطح اندازه گیری
  • بارگیری داده ها
  • توصیف داده ها
  • تجسم داده ها
  • کار با پیش بینی های برتر
  • استفاده از ggplot2 برای داده ها
  • تأیید کیفیت داده
  • انتقال به آماده سازی داده ها

سرفصل ها و درس ها

مقدمه Introduction

  • چرا ارزیابی داده بسیار مهم است Why data assessment is critical

  • یک یادداشت در مورد پرونده های تمرین A note about the exercise files

1. ارزیابی داده چیست؟ 1. What Is Data Assessment?

  • توضیح اینکه تفاوت درک داده ها با تجسم داده ها چه تفاوتی دارد Clarifying how data understanding differs from data visualization

  • معرفی فاز مهم درک اطلاعات CRISP-DM Introducing the critical data understanding phase of CRISP-DM

  • ارزیابی داده ها در گزینه های CRISP-DM: IBM ASUM-DM و Microsoft TDSP Data assessment in CRISP-DM alternatives: The IBM ASUM-DM and Microsoft TDSP

  • پیمایش گذار از درک کسب و کار به درک داده ها Navigating the transition from business understanding to data understanding

  • چگونه می توان کار خود را با چهار وظیفه درک داده سازمان داد How to organize your work with the four data understanding tasks

2. داده های اولیه را جمع آوری کنید 2. Collect Initial Data

  • ملاحظات در جمع آوری داده های مربوطه Considerations in gathering the relevant data

  • یک استراتژی برای پردازش منابع داده A strategy for processing data sources

  • خلاقیت در مورد منابع داده Getting creative about data sources

  • چگونه می توان یک پرونده صاف مناسب را تصور کرد How to envision a proper flat file

  • پیش بینی ادغام داده ها Anticipating data integration

3. ابتدا به داده ها نگاه کنید 3. First Look at the Data

  • مرور مفاهیم اساسی در سطح اندازه گیری Reviewing basic concepts in the level of measurement

  • کدگذاری ساختگی چیست؟ What is dummy coding?

  • گسترش تعریف ما از سطح اندازه گیری Expanding our definition of level of measurement

  • با نگاهی اولیه به متغیرهای کلیدی احتمالی Taking an initial look at possible key variables

  • برخورد با شناسه های تکراری و داده های معاملاتی Dealing with duplicate IDs and transactional data

  • چند متغیر (ستون) بالقوه خواهم داشت؟ How many potential variables (columns) will I have?

  • نحوه مقابله با چند اسمی مرتبه بالا How to deal with high-order multiple nominals

  • چالش: شناسایی سطح اندازه گیری Challenge: Identifying the level of measurement

  • راه حل: شناسایی سطح اندازه گیری Solution: Identifying the level of measurement

4. بارگذاری داده ها و واحد تجزیه و تحلیل 4. Data Loading and Unit of Analysis

  • معرفی پلتفرم KNIME Analytics Introducing the KNIME Analytics Platform

  • نکات و ترفندهایی که باید در هنگام بارگذاری اطلاعات در نظر بگیرید Tips and tricks to consider during data loading

  • تصمیمات تجزیه و تحلیل واحد Unit analysis decisions

  • چالش: ردیف باید چه باشد؟ Challenge: What should the row be?

  • راه حل: ردیف باید چه باشد؟ Solution: What should the row be?

5. داده ها را توصیف کنید 5. Describe Data

  • چگونه می توان خصوصیات ناخالص داده ها را کشف کرد How to uncover the gross properties of the data

  • تحقیق در مورد مجموعه داده Researching the dataset

  • نکات و نکاتی با استفاده از دستورات جمع بندی ساده Tips and tricks using simple aggregation commands

  • یک استراتژی ساده برای سازماندهی کار خود A simple strategy for organizing your work

6. شرح داده ها مطالعات موردی 6. Data Description Case Studies

  • نسخه ی نمایشی داده را با استفاده از مجموعه داده های قلب UCI توصیف کنید Describe data demo using the UCI heart dataset

  • چالش: داده ها را با مجموعه داده های قلب UCI توصیف کنید Challenge: Practice describe data with the UCI heart dataset

  • راه حل: داده ها را با مجموعه داده های قلب UCI توصیف کنید Solution: Practice describe data with the UCI heart dataset

7. مبانی داده را کاوش کنید 7. Explore Data Basics

  • وظیفه کاوش داده ها The explore data task

  • چگونه می توان در انجام تجزیه و تحلیل تک متغیره و تجسم داده ها موثر بود How to be effective doing univariate analysis and data visualization

  • رباعی Anscombe Anscombe's quartet

  • ویژگی گره Data Explorer در KNIME The Data Explorer node feature in KNIME

  • نحوه پیمایش موارد مرزی از نوع متغیر How to navigate borderline cases of variable type

  • چگونه می توان در انجام تجسم متغیر داده ها موثر بود How to be effective in doing bivariate data visualization

  • چالش: تولید تجسمهای متغیر برای مطالعه موردی 1 Challenge: Producing bivariate visualizations for case study 1

  • راه حل: تولید تجسم های متغیر برای مطالعه موردی 1 Solution: Producing bivariate visualizations for case study 1

8- نکات و ترفندهای داده را کاوش کنید 8. Explore Data Tips and Tricks

  • چگونه می توان از زمان SME به طور موثر استفاده کرد How to utilize an SME's time effectively

  • تکنیک های کار با پیش بینی های برتر Techniques for working with the top predictors

  • مشاوره برای پیش بینی کننده های ضعیف Advice for weak predictors

  • نکات و ترفندهایی هنگام جستجوی سوالات موجود در داده های خود Tips and tricks when searching for quirks in your data

  • یادگیری زمان کنار گذاشتن ردیف ها Learning when to discard rows

  • معرفی ggplot2 Introducing ggplot2

  • جهت تجسم قدرتمند داده های چند متغیره ، جهت RG ggplot2 Orientating to R's ggplot2 for powerful multivariate data visualizations

  • چالش: تولید تجسم های چند متغیره برای مطالعه موردی 1 Challenge: Producing multivariate visualizations for case study 1

  • راه حل: تولید تجسم های چند متغیره برای مطالعه موردی 1 Solution: Producing multivariate visualizations for case study 1

9. کیفیت داده ها را تأیید کنید 9. Verify Data Quality

  • در جستجوی گزینه های داده گمشده خود Exploring your missing data options

  • چرا سطرها را برای حذف لیست دار از دست می دهید Why you lose rows to listwise deletion

  • بررسی منشأ داده های از دست رفته Investigating the provenance of the missing data

10. مطالعه موردی از دست رفته داده ها 10. Missing Data Case Study

  • معرفی داده های KDD Cup 1998 Introducing the KDD Cup 1998 data

  • الگوی از دست رفته داده ها در داده های شما چگونه است؟ What is the pattern of missing data in your data?

  • آیا داده های گمشده ارزش ذخیره دارند؟ Is the missing data worth saving?

  • ارزیابی مستندات به عنوان یک راه حل بالقوه Assessing imputation as a potential solution

11. مطالعات موردی را کاوش و تأیید کنید 11. Explore and Verify Case Studies

  • کاوش و تأیید کیفیت داده ها با مجموعه داده های قلب UCI Exploring and verifying data quality with the UCI heart dataset

  • چالش: کمی سازی داده های از دست رفته با مجموعه داده های قلب UCI Challenge: Quantifying missing data with the UCI heart dataset

  • راه حل: تعیین کمی داده های از دست رفته با مجموعه داده های قلب UCI Solution: Quantifying missing data with the UCI heart dataset

12. انتقال به آماده سازی داده ها 12. Making the Transition to Data Preparation

  • چرا گزارش های رسمی مهم هستند؟ Why formal reports are important

  • ایجاد لیست آماده سازی داده ها برای انجام کارها Creating a data prep to-do list

  • چگونه می توان برای استقرار نهایی آماده شد How to prepare for eventual deployment

نتیجه Conclusion

  • مراحل بعدی Next steps

نمایش نظرات

آموزش مبانی علوم داده: ارزیابی داده ها برای مدل سازی پیش بینی
جزییات دوره
4h 3m
64
Linkedin (لینکدین) Linkedin (لینکدین)
(آخرین آپدیت)
1,947
- از 5
ندارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Keith McCormick Keith McCormick

داده کاو ، مربی ، سخنران ، نویسنده کیت مک کورمیک یک کاوشگر اطلاعات ، مربی ، سخنران و نویسنده مستقل است.

کیت در توضیح روشهای پیچیده برای کاربران جدید یا تصمیم گیرندگان در سطوح مختلف از جزئیات فنی مهارت دارد. وی متخصص در مدل های پیش بینی و تجزیه و تحلیل تقسیم بندی از جمله درختان طبقه بندی ، شبکه های عصبی ، مدل خطی کلی ، تجزیه خوشه و قوانین ارتباط است.