آموزش پاک کردن داده های بد در R

Cleaning Bad Data in R

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: یکپارچگی داده ها کانون جدید انقلاب علم داده است. اکنون که همه از عهده نقش داده در زندگی و تجارت افراد برآیند ، سوال غیرمنصفانه ای نیست که بپرسیم "آیا می توانید صحت داده های خود را ثابت کنید؟" در این دوره ، شما می توانید یاد بگیرید که چگونه بسیاری از مسائل مربوط به یکپارچگی داده ها را که دانشمندان مدرن داده با استفاده از R و متنوع مواجه هستند ، شناسایی و برطرف کنید. نحوه مدیریت مقادیر از دست رفته و داده های تکراری را بیابید. نحوه تبدیل داده ها بین واحدهای مختلف و مقابله با متن با قالب ضعیف را بیابید. بعلاوه ، یاد بگیرید که چگونه نقاط پرتگاه را شناسایی کنید ، مسائل ساختاری را برطرف کنید و پرچم های قرمز را نشان دهید که مشکلات بالقوه کیفیت داده را نشان می دهد.

در صورت امکان ، مربی Mike Chapple نحوه تصحیح مسائل را با استفاده از R نشان می دهد ، اما اصول مشابه را می توان در هر زبان برنامه نویسی آماری اعمال کرد.
موضوعات شامل:
  • داده های از دست رفته
  • ردیف ها و مقادیر تکراری
  • تبدیل داده
  • قالب بندی داده ها
  • کار با داده های مرتب
  • مرتب سازی مجموعه داده ها
  • برخورد با داده های مشکوک

سرفصل ها و درس ها

مقدمه Introduction

  • داده ها کثیف است Data is messy

  • چه چیزی میخواهید بدانید What you need to know

1. داده موجود نیست 1. Missing Data

  • انواع داده های از دست رفته Types of missing data

  • ارزش از دست رفته Missing values

  • ردیف های موجود نیست Missing rows

  • جمع و مقادیر گمشده Aggregations and missing values

2. داده های کپی شده 2. Duplicated Data

  • سطرها و مقادیر تکراری Duplicated rows and values

  • جمع در مجموعه داده ها Aggregations in the data set

3. قالب بندی داده ها 3. Formatting Data

  • تاریخ های تبدیل Converting dates

  • تبدیل واحد Unit conversions

  • شماره هایی که به عنوان متن ذخیره می شوند Numbers stored as text

  • متن به صورت نادرست به اعداد تبدیل شده است Text improperly converted to numbers

  • هجی های متناقض Inconsistent spellings

4- بیرونی ها 4. Outliers

  • غربالگری برای محیط های دور Screening for outliers

  • جابجایی از راه دور Handling outliers

  • افراد خارجی از کیس استفاده می کنند Outliers use case

  • افراد خارجی در زیر گروه ها Outliers in subgroups

  • کشف مقادیر غیر منطقی Detecting illogical values

5- داده مرتب 5. Tidy Data

  • داده های مرتب چیست؟ What is tidy data?

  • متغیرها ، مشاهدات و مقادیر Variables, observations, and values

  • مشکلات داده رایج Common data problems

  • مجموعه های گسترده در مقابل مجموعه های طولانی Wide vs. long data sets

  • ایجاد مجموعه داده های گسترده طولانی است Making wide data sets long

  • پهن کردن مجموعه داده های طولانی Making long data sets wide

6. پرچم های قرمز 6. Red Flags

  • مقادیر مشکوک Suspicious values

  • چند برابر مشکوک Suspicious multiples

نتیجه Conclusion

  • بعد چی؟ What's next?

نمایش نظرات

Linkedin (لینکدین)

لینکدین: شبکه اجتماعی حرفه‌ای برای ارتباط و کارآفرینی

لینکدین به عنوان یکی از بزرگترین شبکه‌های اجتماعی حرفه‌ای، به میلیون‌ها افراد در سراسر جهان این امکان را می‌دهد تا ارتباط برقرار کنند، اطلاعات حرفه‌ای خود را به اشتراک بگذارند و فرصت‌های شغلی را کشف کنند. این شبکه اجتماعی به کاربران امکان می‌دهد تا رزومه حرفه‌ای خود را آپدیت کنند، با همکاران، دوستان و همکاران آینده ارتباط برقرار کنند، به انجمن‌ها و گروه‌های حرفه‌ای ملحق شوند و از مقالات و مطالب مرتبط با حوزه کاری خود بهره‌مند شوند.

لینکدین همچنین به کارفرمایان امکان می‌دهد تا به دنبال نیروهای با تجربه و مهارت مورد نیاز خود بگردند و ارتباط برقرار کنند. این شبکه حرفه‌ای به عنوان یک پلتفرم کلیدی برای بهبود دسترسی به فرصت‌های شغلی و گسترش شبکه حرفه‌ای خود، نقش مهمی را ایفا می‌کند. از این رو، لینکدین به عنوان یکی از مهمترین ابزارهای کارآفرینی و توسعه حرفه‌ای در دنیای امروز مورد توجه قرار دارد.

آموزش پاک کردن داده های بد در R
جزییات دوره
1h 54m
27
Linkedin (لینکدین) Linkedin (لینکدین)
(آخرین آپدیت)
27,613
- از 5
ندارد
دارد
دارد
Mike Chapple
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Mike Chapple Mike Chapple

استاد تدریس در دانشگاه نوتردام

مایک چاپل استاد تدریس فناوری اطلاعات، تجزیه و تحلیل و عملیات در کالج تجارت مندوزا در دانشگاه نوتردام است.



br>در سمت قبلی خود به عنوان مدیر ارشد ارائه خدمات فناوری اطلاعات در دانشگاه نوتردام، او بر امنیت اطلاعات، معماری فناوری اطلاعات، مدیریت پروژه، برنامه ریزی استراتژیک و عملکردهای انطباق با فناوری اطلاعات برای دفتر فناوری اطلاعات نظارت داشت.

مایک یک متخصص امنیت سایبری و تجزیه و تحلیل با بیش از بیست سال تجربه است. او نویسنده بیش از 30 کتاب، از جمله راهنمای مطالعه رسمی (ISC) 2 CISSP و راهنمای مطالعه Sybex از جان وایلی و پسران است که گواهینامه های Security+، CySA+، PenTest+، CISM و CIPP را پوشش می دهد. دوره های آموزشی LinkedIn او طیف گسترده ای از موضوعات مربوط به امنیت سایبری و تجزیه و تحلیل را پوشش می دهد.

درباره برنامه‌های آموزشی امنیت سایبری Mike در CertMike.com اطلاعات بیشتری کسب کنید.