لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش مبانی علوم داده: ارزیابی داده ها برای مدل سازی پیش بینی
Data Science Foundations: Data Assessment for Predictive Modeling
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
CRISP-DM ، فرآیند استاندارد بین صنعت برای داده کاوی ، از شش مرحله تشکیل شده است. بیشتر دانشمندان جدید داده ها به سمت مدل سازی می شتابند زیرا این مرحله ای است که آنها بیشترین آموزش را در آن دارند. اما اینکه پروژه موفقیت آمیز باشد یا شکست بخورد در واقع خیلی زودتر مشخص شده است. این دوره یک رویکرد سیستماتیک را برای فهم درک داده ها برای مدل سازی پیش بینی معرفی می کند. مربی کیت مک کورمیک اصول ، دستورالعمل ها و ابزارهایی مانند KNIME و R را برای ارزیابی صحیح یک مجموعه داده برای مناسب بودن آن برای یادگیری ماشین آموزش می دهد. نحوه جمع آوری داده ها ، توصیف داده ها ، کاوش داده ها را با اجرای تجسم های متغیر کشف کنید و کیفیت داده های خود را تأیید کنید و همچنین به مرحله آماده سازی داده ها بروید. این دوره شامل مطالعات موردی و بهترین شیوه ها و همچنین مجموعه چالش ها و راه حل هایی برای افزایش دانش افزایش می یابد. در پایان ، شما باید مهارت های لازم را داشته باشید تا بتوانید به این مرحله حیاتی از همه پروژه های موفق علم داده توجه کافی داشته باشید.
موضوعات شامل:
تشخیص ارزیابی داده ها از داده ها li>
تسلط بر چهار وظیفه درک داده li>
جمع آوری داده های اولیه li>
شناسایی سطح اندازه گیری li>
بارگیری داده ها li>
توصیف داده ها li>
تجسم داده ها li>
کار با پیش بینی های برتر li>
استفاده از ggplot2 برای داده ها li>
تأیید کیفیت داده li>
انتقال به آماده سازی داده ها li>
سرفصل ها و درس ها
مقدمه
Introduction
چرا ارزیابی داده بسیار مهم است
Why data assessment is critical
یک یادداشت در مورد پرونده های تمرین
A note about the exercise files
1. ارزیابی داده چیست؟
1. What Is Data Assessment?
توضیح اینکه تفاوت درک داده ها با تجسم داده ها چه تفاوتی دارد
Clarifying how data understanding differs from data visualization
معرفی فاز مهم درک اطلاعات CRISP-DM
Introducing the critical data understanding phase of CRISP-DM
ارزیابی داده ها در گزینه های CRISP-DM: IBM ASUM-DM و Microsoft TDSP
Data assessment in CRISP-DM alternatives: The IBM ASUM-DM and Microsoft TDSP
پیمایش گذار از درک کسب و کار به درک داده ها
Navigating the transition from business understanding to data understanding
چگونه می توان کار خود را با چهار وظیفه درک داده سازمان داد
How to organize your work with the four data understanding tasks
2. داده های اولیه را جمع آوری کنید
2. Collect Initial Data
ملاحظات در جمع آوری داده های مربوطه
Considerations in gathering the relevant data
یک استراتژی برای پردازش منابع داده
A strategy for processing data sources
خلاقیت در مورد منابع داده
Getting creative about data sources
چگونه می توان یک پرونده صاف مناسب را تصور کرد
How to envision a proper flat file
پیش بینی ادغام داده ها
Anticipating data integration
3. ابتدا به داده ها نگاه کنید
3. First Look at the Data
مرور مفاهیم اساسی در سطح اندازه گیری
Reviewing basic concepts in the level of measurement
کدگذاری ساختگی چیست؟
What is dummy coding?
گسترش تعریف ما از سطح اندازه گیری
Expanding our definition of level of measurement
با نگاهی اولیه به متغیرهای کلیدی احتمالی
Taking an initial look at possible key variables
برخورد با شناسه های تکراری و داده های معاملاتی
Dealing with duplicate IDs and transactional data
چند متغیر (ستون) بالقوه خواهم داشت؟
How many potential variables (columns) will I have?
نحوه مقابله با چند اسمی مرتبه بالا
How to deal with high-order multiple nominals
چالش: شناسایی سطح اندازه گیری
Challenge: Identifying the level of measurement
راه حل: شناسایی سطح اندازه گیری
Solution: Identifying the level of measurement
4. بارگذاری داده ها و واحد تجزیه و تحلیل
4. Data Loading and Unit of Analysis
معرفی پلتفرم KNIME Analytics
Introducing the KNIME Analytics Platform
نکات و ترفندهایی که باید در هنگام بارگذاری اطلاعات در نظر بگیرید
Tips and tricks to consider during data loading
تصمیمات تجزیه و تحلیل واحد
Unit analysis decisions
چالش: ردیف باید چه باشد؟
Challenge: What should the row be?
راه حل: ردیف باید چه باشد؟
Solution: What should the row be?
5. داده ها را توصیف کنید
5. Describe Data
چگونه می توان خصوصیات ناخالص داده ها را کشف کرد
How to uncover the gross properties of the data
تحقیق در مورد مجموعه داده
Researching the dataset
نکات و نکاتی با استفاده از دستورات جمع بندی ساده
Tips and tricks using simple aggregation commands
یک استراتژی ساده برای سازماندهی کار خود
A simple strategy for organizing your work
6. شرح داده ها مطالعات موردی
6. Data Description Case Studies
نسخه ی نمایشی داده را با استفاده از مجموعه داده های قلب UCI توصیف کنید
Describe data demo using the UCI heart dataset
چالش: داده ها را با مجموعه داده های قلب UCI توصیف کنید
Challenge: Practice describe data with the UCI heart dataset
راه حل: داده ها را با مجموعه داده های قلب UCI توصیف کنید
Solution: Practice describe data with the UCI heart dataset
7. مبانی داده را کاوش کنید
7. Explore Data Basics
وظیفه کاوش داده ها
The explore data task
چگونه می توان در انجام تجزیه و تحلیل تک متغیره و تجسم داده ها موثر بود
How to be effective doing univariate analysis and data visualization
رباعی Anscombe
Anscombe's quartet
ویژگی گره Data Explorer در KNIME
The Data Explorer node feature in KNIME
نحوه پیمایش موارد مرزی از نوع متغیر
How to navigate borderline cases of variable type
چگونه می توان در انجام تجسم متغیر داده ها موثر بود
How to be effective in doing bivariate data visualization
چالش: تولید تجسمهای متغیر برای مطالعه موردی 1
Challenge: Producing bivariate visualizations for case study 1
راه حل: تولید تجسم های متغیر برای مطالعه موردی 1
Solution: Producing bivariate visualizations for case study 1
8- نکات و ترفندهای داده را کاوش کنید
8. Explore Data Tips and Tricks
چگونه می توان از زمان SME به طور موثر استفاده کرد
How to utilize an SME's time effectively
تکنیک های کار با پیش بینی های برتر
Techniques for working with the top predictors
مشاوره برای پیش بینی کننده های ضعیف
Advice for weak predictors
نکات و ترفندهایی هنگام جستجوی سوالات موجود در داده های خود
Tips and tricks when searching for quirks in your data
یادگیری زمان کنار گذاشتن ردیف ها
Learning when to discard rows
معرفی ggplot2
Introducing ggplot2
جهت تجسم قدرتمند داده های چند متغیره ، جهت RG ggplot2
Orientating to R's ggplot2 for powerful multivariate data visualizations
چالش: تولید تجسم های چند متغیره برای مطالعه موردی 1
Challenge: Producing multivariate visualizations for case study 1
راه حل: تولید تجسم های چند متغیره برای مطالعه موردی 1
Solution: Producing multivariate visualizations for case study 1
9. کیفیت داده ها را تأیید کنید
9. Verify Data Quality
در جستجوی گزینه های داده گمشده خود
Exploring your missing data options
چرا سطرها را برای حذف لیست دار از دست می دهید
Why you lose rows to listwise deletion
بررسی منشأ داده های از دست رفته
Investigating the provenance of the missing data
10. مطالعه موردی از دست رفته داده ها
10. Missing Data Case Study
معرفی داده های KDD Cup 1998
Introducing the KDD Cup 1998 data
الگوی از دست رفته داده ها در داده های شما چگونه است؟
What is the pattern of missing data in your data?
آیا داده های گمشده ارزش ذخیره دارند؟
Is the missing data worth saving?
ارزیابی مستندات به عنوان یک راه حل بالقوه
Assessing imputation as a potential solution
11. مطالعات موردی را کاوش و تأیید کنید
11. Explore and Verify Case Studies
کاوش و تأیید کیفیت داده ها با مجموعه داده های قلب UCI
Exploring and verifying data quality with the UCI heart dataset
چالش: کمی سازی داده های از دست رفته با مجموعه داده های قلب UCI
Challenge: Quantifying missing data with the UCI heart dataset
راه حل: تعیین کمی داده های از دست رفته با مجموعه داده های قلب UCI
Solution: Quantifying missing data with the UCI heart dataset
12. انتقال به آماده سازی داده ها
12. Making the Transition to Data Preparation
چرا گزارش های رسمی مهم هستند؟
Why formal reports are important
ایجاد لیست آماده سازی داده ها برای انجام کارها
Creating a data prep to-do list
چگونه می توان برای استقرار نهایی آماده شد
How to prepare for eventual deployment
داده کاو ، مربی ، سخنران ، نویسنده
کیت مک کورمیک یک کاوشگر اطلاعات ، مربی ، سخنران و نویسنده مستقل است.
کیت در توضیح روشهای پیچیده برای کاربران جدید یا تصمیم گیرندگان در سطوح مختلف از جزئیات فنی مهارت دارد. وی متخصص در مدل های پیش بینی و تجزیه و تحلیل تقسیم بندی از جمله درختان طبقه بندی ، شبکه های عصبی ، مدل خطی کلی ، تجزیه خوشه و قوانین ارتباط است.
نمایش نظرات