آموزش بهبود کیفیت داده در تجزیه و تحلیل داده ها و یادگیری ماشین

Improving data quality in data analytics & machine learning

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: بیاموزید چرا، چه زمانی و چگونه کیفیت داده های خود را برای بهینه سازی تصمیم گیری های مبتنی بر داده به حداکثر برسانید استراتژی های افزایش کیفیت داده ها راه های ارزیابی کیفیت داده ها تفسیر تصویرسازی داده ها نحوه تشخیص مشکلات در داده ها پیش نیازها:علاقه به کار با داده ها علاقه به دانستن اطلاعات بیشتر در مورد کیفیت داده ها برخی از مهارت های پایتون برای ویدیوهای کدگذاری اختیاری مفید است

همه تصمیمات ما بر اساس داده ها است. اندام‌های حسی ما داده‌ها را جمع‌آوری می‌کنند، خاطرات ما داده‌ها هستند و غریزه‌های درونی ما داده‌ها هستند. اگر می‌خواهید تصمیم‌های خوبی بگیرید، باید داده‌هایی با کیفیت بالا داشته باشید.


این دوره در مورد کیفیت داده است: معنی آن چیست، چرا مهم است و چگونه می توانید کیفیت داده های خود را افزایش دهید.


در این دوره، یاد خواهید گرفت:

  1. استراتژی‌های سطح بالا برای اطمینان از کیفیت بالای داده‌ها، از جمله اصطلاحات، مستندسازی داده‌ها و مدیریت، و مراحل مختلف تحقیقاتی که در آن می‌توانید کیفیت داده‌ها را بررسی و افزایش دهید.

  2. روش‌های کمی و کیفی برای ارزیابی کیفیت داده‌ها، از جمله بازرسی بصری، نرخ خطا، و مقادیر پرت. کد پایتون برای مشاهده نحوه پیاده‌سازی این تجسم‌ها و روش‌های امتیازدهی با استفاده از pandas، numpy، seaborn و matplotlib ارائه شده است.

  3. روش‌ها و الگوریتم‌های داده خاص برای پاک کردن داده‌ها و رد داده‌های بد یا غیرعادی. همانطور که در بالا ذکر شد، کد پایتون برای مشاهده نحوه پیاده سازی این رویه ها با استفاده از pandas، numpy، seaborn و matplotlib ارائه شده است.


این دوره برای

است
  1. متخصصان داده که می‌خواهند هم استراتژی‌های سطح بالا و هم رویه‌های سطح پایین برای ارزیابی و بهبود کیفیت داده را درک کنند.

  2. مدیران، مشتریان و همکارانی که می‌خواهند اهمیت کیفیت داده را درک کنند، حتی اگر مستقیماً با داده‌ها کار نکنند.


سرفصل ها و درس ها

معرفی Introduction

  • آیا این دوره برای شما مناسب است؟ Is this course right for you?

دانلود مطالب دوره (کد پایتون) Download course materials (Python code)

  • کد را دانلود کنید Download the code

چرا کیفیت داده مهم است Why data quality matters

  • خلاصه بخش Section summary

  • دیتا هست یا داده؟؟ Is data or are data??

  • در مورد منشاء و کیفیت داده ها On the origins and quality of data

  • مشکلات احتمالی داده ها Potential problems with data

  • GIGO (زباله داخل، زباله بیرون) GIGO (garbage in, garbage out)

  • کیفیت داده ها بر تصمیم گیری های داده محور تأثیر می گذارد Data quality influences data-driven decisions

تضمین کیفیت داده بالا Ensuring high data quality

  • خلاصه بخش Section summary

  • مدیریت اطلاعات Data management

  • اسناد داده ها Data documentation

  • ممیزی داده ها Data audits

  • آنچه در اسناد داده ها باید گنجانده شود What to include in data documentation

  • مراحل پاکسازی داده ها Data cleaning phases

  • قبل از دریافت داده، کیفیت را بهبود بخشید Improve quality before getting data

  • بهبود کیفیت در حین جمع آوری داده ها Improve quality during data collection

  • بهبود کیفیت پس از جمع آوری داده ها Improve quality after data collection

  • بهبود کیفیت در طول تجزیه و تحلیل داده ها Improve quality during data analysis

  • خطرات نتایج مغرضانه Risks of biased results

  • چه زمانی کیفیت داده ها را به حداکثر برسانیم When to maximize data quality

ارزیابی کیفیت داده ها Assessing data quality

  • خلاصه بخش Section summary

  • ارزیابی کیفیت کیفی در مقابل کمی Qualitative vs. quantitative quality assessments

  • ارزیابی کیفیت داده ها با چشم و الگوریتم Evaluating data quality by eye and by algorithm

  • ارزیابی کیفی از طریق بازرسی بصری Qualitative assessments via visual inspection

  • کد: تجسم توزیع داده ها Code: Visualizing data distributions

  • ارزیابی های واریانس Variance assessments

  • همبستگی ها و ماتریس های همبستگی Correlations and correlation matrices

  • نرخ خطای داده Data error rates

  • اندازه های نمونه Sample sizes

  • کد: اندازه گیری کیفیت داده ها Code: Measuring data quality

تبدیل داده ها Data transformations

  • خلاصه بخش Section summary

  • مقیاس بندی Z-score Z-score scaling

  • حداقل/حداکثر مقیاس Min/max scaling

  • بنینگ (گرد کردن) Binning (rounding)

  • نرمال سازی واحد Unit normalization

  • تبدیل رتبه Rank transform

  • تبدیل های غیر خطی Nonlinear transformations

  • کد: تبدیل داده ها Code: Transforming data

اطلاعات پرت و گمشده Outliers and missing data

  • خلاصه بخش Section summary

  • موارد پرت چیست؟ What are outliers?

  • روش z-score The z-score method

  • روش z-score اصلاح شده The modified z-score method

  • برخورد با داده های از دست رفته Dealing with missing data

  • کد: برخورد با داده های بد یا از دست رفته Code: Dealing with bad or missing data

یک دانشمند داده با کیفیت بالا باشید Be a high-quality data scientist

  • خلاصه بخش Section summary

  • همگام با تحولات علم داده Keeping up with data science developments

  • آیا می توانید همه چیز را بدانید؟ Can you know everything?

  • آنچه دانشمندان داده می خواهند What data scientists want

جایزه Bonus

  • مواد جایزه Bonus material

نمایش نظرات

آموزش بهبود کیفیت داده در تجزیه و تحلیل داده ها و یادگیری ماشین
جزییات دوره
5.5 hours
45
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,124
4.5 از 5
دارد
دارد
دارد
Mike X Cohen
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Mike X Cohen Mike X Cohen

من دانشیار علوم اعصاب در دانشگاه رادبود (هلند) هستم. آزمایشگاه تحقیقاتی من از روش های علوم اعصاب پیشرفته برای اندازه گیری فعالیت الکتریکی مغز استفاده می کند و ما برای درک همه داده ها از روش های پیشرفته پردازش سیگنال چند متغیره و روش یادگیری ماشین یادگیری استفاده می کنیم! من چندین کتاب درسی درباره برنامه نویسی علمی در MATLAB ، پردازش سیگنال و آمار نوشته ام. من همچنین معتقد به اهمیت ادامه تحصیل در سطح حرفه ای هستم. تمرکز آموزش Pluralsight من تجزیه و تحلیل داده های عملی در MATLAB است. آموزش مباحث فنی می تواند یک چالش برای دوره های آنلاین باشد که تعاملات رو در رو در زمان واقعی ندارند. من تمام تلاشم را می کنم تا تعادل درستی بین درک و دقت ریاضی و بین تئوری و اجرا پیدا کنم. امیدوارم موافقت کنید و مشتاقانه منتظر دیدن شما در کلاس هستم!