لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش بهبود کیفیت داده در تجزیه و تحلیل داده ها و یادگیری ماشین
Improving data quality in data analytics & machine learning
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
بیاموزید چرا، چه زمانی و چگونه کیفیت داده های خود را برای بهینه سازی تصمیم گیری های مبتنی بر داده به حداکثر برسانید استراتژی های افزایش کیفیت داده ها راه های ارزیابی کیفیت داده ها تفسیر تصویرسازی داده ها نحوه تشخیص مشکلات در داده ها پیش نیازها:علاقه به کار با داده ها علاقه به دانستن اطلاعات بیشتر در مورد کیفیت داده ها برخی از مهارت های پایتون برای ویدیوهای کدگذاری اختیاری مفید است
همه تصمیمات ما بر اساس داده ها است. اندامهای حسی ما دادهها را جمعآوری میکنند، خاطرات ما دادهها هستند و غریزههای درونی ما دادهها هستند. اگر میخواهید تصمیمهای خوبی بگیرید، باید دادههایی با کیفیت بالا داشته باشید.
این دوره در مورد کیفیت داده است: معنی آن چیست، چرا مهم است و چگونه می توانید کیفیت داده های خود را افزایش دهید.
در این دوره، یاد خواهید گرفت:
استراتژیهای سطح بالا برای اطمینان از کیفیت بالای دادهها، از جمله اصطلاحات، مستندسازی دادهها و مدیریت، و مراحل مختلف تحقیقاتی که در آن میتوانید کیفیت دادهها را بررسی و افزایش دهید.
روشهای کمی و کیفی برای ارزیابی کیفیت دادهها، از جمله بازرسی بصری، نرخ خطا، و مقادیر پرت. کد پایتون برای مشاهده نحوه پیادهسازی این تجسمها و روشهای امتیازدهی با استفاده از pandas، numpy، seaborn و matplotlib ارائه شده است.
روشها و الگوریتمهای داده خاص برای پاک کردن دادهها و رد دادههای بد یا غیرعادی. همانطور که در بالا ذکر شد، کد پایتون برای مشاهده نحوه پیاده سازی این رویه ها با استفاده از pandas، numpy، seaborn و matplotlib ارائه شده است.
این دوره برای
است
متخصصان داده که میخواهند هم استراتژیهای سطح بالا و هم رویههای سطح پایین برای ارزیابی و بهبود کیفیت داده را درک کنند.
مدیران، مشتریان و همکارانی که میخواهند اهمیت کیفیت داده را درک کنند، حتی اگر مستقیماً با دادهها کار نکنند.
سرفصل ها و درس ها
معرفی
Introduction
آیا این دوره برای شما مناسب است؟
Is this course right for you?
دانلود مطالب دوره (کد پایتون)
Download course materials (Python code)
کد را دانلود کنید
Download the code
چرا کیفیت داده مهم است
Why data quality matters
خلاصه بخش
Section summary
دیتا هست یا داده؟؟
Is data or are data??
در مورد منشاء و کیفیت داده ها
On the origins and quality of data
مشکلات احتمالی داده ها
Potential problems with data
GIGO (زباله داخل، زباله بیرون)
GIGO (garbage in, garbage out)
کیفیت داده ها بر تصمیم گیری های داده محور تأثیر می گذارد
Data quality influences data-driven decisions
تضمین کیفیت داده بالا
Ensuring high data quality
خلاصه بخش
Section summary
مدیریت اطلاعات
Data management
اسناد داده ها
Data documentation
ممیزی داده ها
Data audits
آنچه در اسناد داده ها باید گنجانده شود
What to include in data documentation
مراحل پاکسازی داده ها
Data cleaning phases
قبل از دریافت داده، کیفیت را بهبود بخشید
Improve quality before getting data
بهبود کیفیت در حین جمع آوری داده ها
Improve quality during data collection
بهبود کیفیت پس از جمع آوری داده ها
Improve quality after data collection
بهبود کیفیت در طول تجزیه و تحلیل داده ها
Improve quality during data analysis
خطرات نتایج مغرضانه
Risks of biased results
چه زمانی کیفیت داده ها را به حداکثر برسانیم
When to maximize data quality
ارزیابی کیفیت داده ها
Assessing data quality
خلاصه بخش
Section summary
ارزیابی کیفیت کیفی در مقابل کمی
Qualitative vs. quantitative quality assessments
ارزیابی کیفیت داده ها با چشم و الگوریتم
Evaluating data quality by eye and by algorithm
ارزیابی کیفی از طریق بازرسی بصری
Qualitative assessments via visual inspection
کد: تجسم توزیع داده ها
Code: Visualizing data distributions
ارزیابی های واریانس
Variance assessments
همبستگی ها و ماتریس های همبستگی
Correlations and correlation matrices
نرخ خطای داده
Data error rates
اندازه های نمونه
Sample sizes
کد: اندازه گیری کیفیت داده ها
Code: Measuring data quality
تبدیل داده ها
Data transformations
خلاصه بخش
Section summary
مقیاس بندی Z-score
Z-score scaling
حداقل/حداکثر مقیاس
Min/max scaling
بنینگ (گرد کردن)
Binning (rounding)
نرمال سازی واحد
Unit normalization
تبدیل رتبه
Rank transform
تبدیل های غیر خطی
Nonlinear transformations
کد: تبدیل داده ها
Code: Transforming data
اطلاعات پرت و گمشده
Outliers and missing data
خلاصه بخش
Section summary
موارد پرت چیست؟
What are outliers?
روش z-score
The z-score method
روش z-score اصلاح شده
The modified z-score method
برخورد با داده های از دست رفته
Dealing with missing data
کد: برخورد با داده های بد یا از دست رفته
Code: Dealing with bad or missing data
یک دانشمند داده با کیفیت بالا باشید
Be a high-quality data scientist
خلاصه بخش
Section summary
همگام با تحولات علم داده
Keeping up with data science developments
آیا می توانید همه چیز را بدانید؟
Can you know everything?
آنچه دانشمندان داده می خواهند
What data scientists want
من دانشیار علوم اعصاب در دانشگاه رادبود (هلند) هستم. آزمایشگاه تحقیقاتی من از روش های علوم اعصاب پیشرفته برای اندازه گیری فعالیت الکتریکی مغز استفاده می کند و ما برای درک همه داده ها از روش های پیشرفته پردازش سیگنال چند متغیره و روش یادگیری ماشین یادگیری استفاده می کنیم! من چندین کتاب درسی درباره برنامه نویسی علمی در MATLAB ، پردازش سیگنال و آمار نوشته ام. من همچنین معتقد به اهمیت ادامه تحصیل در سطح حرفه ای هستم. تمرکز آموزش Pluralsight من تجزیه و تحلیل داده های عملی در MATLAB است. آموزش مباحث فنی می تواند یک چالش برای دوره های آنلاین باشد که تعاملات رو در رو در زمان واقعی ندارند. من تمام تلاشم را می کنم تا تعادل درستی بین درک و دقت ریاضی و بین تئوری و اجرا پیدا کنم. امیدوارم موافقت کنید و مشتاقانه منتظر دیدن شما در کلاس هستم!
نمایش نظرات