لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش پاک کردن داده های بد در R
Cleaning Bad Data in R
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
یکپارچگی داده ها کانون جدید انقلاب علم داده است. اکنون که همه از عهده نقش داده در زندگی و تجارت افراد برآیند ، سوال غیرمنصفانه ای نیست که بپرسیم "آیا می توانید صحت داده های خود را ثابت کنید؟" در این دوره ، شما می توانید یاد بگیرید که چگونه بسیاری از مسائل مربوط به یکپارچگی داده ها را که دانشمندان مدرن داده با استفاده از R و متنوع مواجه هستند ، شناسایی و برطرف کنید. نحوه مدیریت مقادیر از دست رفته و داده های تکراری را بیابید. نحوه تبدیل داده ها بین واحدهای مختلف و مقابله با متن با قالب ضعیف را بیابید. بعلاوه ، یاد بگیرید که چگونه نقاط پرتگاه را شناسایی کنید ، مسائل ساختاری را برطرف کنید و پرچم های قرمز را نشان دهید که مشکلات بالقوه کیفیت داده را نشان می دهد.
در صورت امکان ، مربی Mike Chapple نحوه تصحیح مسائل را با استفاده از R نشان می دهد ، اما اصول مشابه را می توان در هر زبان برنامه نویسی آماری اعمال کرد.
موضوعات شامل:
داده های از دست رفته li>
ردیف ها و مقادیر تکراری li>
تبدیل داده li>
قالب بندی داده ها li>
کار با داده های مرتب li>
مرتب سازی مجموعه داده ها li>
برخورد با داده های مشکوک li>
سرفصل ها و درس ها
مقدمه
Introduction
داده ها کثیف است
Data is messy
چه چیزی میخواهید بدانید
What you need to know
1. داده موجود نیست
1. Missing Data
انواع داده های از دست رفته
Types of missing data
ارزش از دست رفته
Missing values
ردیف های موجود نیست
Missing rows
جمع و مقادیر گمشده
Aggregations and missing values
2. داده های کپی شده
2. Duplicated Data
سطرها و مقادیر تکراری
Duplicated rows and values
جمع در مجموعه داده ها
Aggregations in the data set
3. قالب بندی داده ها
3. Formatting Data
تاریخ های تبدیل
Converting dates
تبدیل واحد
Unit conversions
شماره هایی که به عنوان متن ذخیره می شوند
Numbers stored as text
متن به صورت نادرست به اعداد تبدیل شده است
Text improperly converted to numbers
هجی های متناقض
Inconsistent spellings
4- بیرونی ها
4. Outliers
غربالگری برای محیط های دور
Screening for outliers
جابجایی از راه دور
Handling outliers
افراد خارجی از کیس استفاده می کنند
Outliers use case
افراد خارجی در زیر گروه ها
Outliers in subgroups
کشف مقادیر غیر منطقی
Detecting illogical values
5- داده مرتب
5. Tidy Data
داده های مرتب چیست؟
What is tidy data?
متغیرها ، مشاهدات و مقادیر
Variables, observations, and values
مشکلات داده رایج
Common data problems
مجموعه های گسترده در مقابل مجموعه های طولانی
Wide vs. long data sets
ایجاد مجموعه داده های گسترده طولانی است
Making wide data sets long
پهن کردن مجموعه داده های طولانی
Making long data sets wide
مایک چاپل استاد تدریس فناوری اطلاعات، تجزیه و تحلیل و عملیات در کالج تجارت مندوزا در دانشگاه نوتردام است.
br>در سمت قبلی خود به عنوان مدیر ارشد ارائه خدمات فناوری اطلاعات در دانشگاه نوتردام، او بر امنیت اطلاعات، معماری فناوری اطلاعات، مدیریت پروژه، برنامه ریزی استراتژیک و عملکردهای انطباق با فناوری اطلاعات برای دفتر فناوری اطلاعات نظارت داشت.
مایک یک متخصص امنیت سایبری و تجزیه و تحلیل با بیش از بیست سال تجربه است. او نویسنده بیش از 30 کتاب، از جمله راهنمای مطالعه رسمی (ISC) 2 CISSP و راهنمای مطالعه Sybex از جان وایلی و پسران است که گواهینامه های Security+، CySA+، PenTest+، CISM و CIPP را پوشش می دهد. دوره های آموزشی LinkedIn او طیف گسترده ای از موضوعات مربوط به امنیت سایبری و تجزیه و تحلیل را پوشش می دهد.
درباره برنامههای آموزشی امنیت سایبری Mike در CertMike.com اطلاعات بیشتری کسب کنید.
نمایش نظرات