لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش پاکسازی داده ها در پایتون
Data Cleaning in Python
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
پیش پردازش، ساختار و عادی سازی داده ها پاکسازی یا پاکسازی داده ها به عنوان یک گام پیش پردازش در جهت سازگاری بیشتر و کیفیت بالای داده ها قبل از آموزش مدل های پیش بینی. پیش نیازها:مبانی پایتون
پاکسازی داده ها یا پاکسازی داده ها از دیدگاه ساخت سیستم های خودکار هوشمند بسیار مهم است. پاکسازی داده ها یک مرحله پیش پردازش است که اعتبار، دقت، کامل بودن، سازگاری و یکنواختی داده ها را بهبود می بخشد. برای ساختن مدلهای یادگیری ماشینی قابل اعتماد که میتوانند نتایج خوبی ایجاد کنند، ضروری است. در غیر این صورت، هر چقدر هم که مدل خوب باشد، نمی توان به نتایج آن اعتماد کرد. مبتدیان با یادگیری ماشین شروع به کار با مجموعه داده های در دسترس عمومی می کنند که به طور کامل با چنین مسائلی تجزیه و تحلیل می شوند و بنابراین آماده استفاده برای مدل های آموزشی و گرفتن نتایج خوب هستند. اما در دنیای واقعی با داده ها فاصله زیادی دارد. مشکلات رایج داده ها ممکن است شامل مقادیر از دست رفته، مقادیر نویز یا نقاط پرت تک متغیره، پرت چند متغیره، تکراری شدن داده ها، بهبود کیفیت داده ها از طریق استانداردسازی و عادی سازی آن ها، برخورد با ویژگی های طبقه بندی شده باشد. مجموعه داده هایی که به صورت خام هستند و همه این مسائل را دارند، بدون اطلاع از مراحل پاکسازی و پیش پردازش داده ها، قابل استفاده نیستند. دادههایی که مستقیماً از چندین منبع آنلاین به دست میآیند، برای ساختن برنامههای کاربردی مفید، حتی بیشتر در معرض چنین مشکلاتی هستند. بنابراین، یادگیری مهارت های پاکسازی داده ها به کاربران کمک می کند تا تجزیه و تحلیل مفیدی را با داده های کسب و کار خود انجام دهند. در غیر این صورت، اصطلاح زباله در زباله ها به این واقعیت اشاره دارد که بدون مرتب سازی مسائل موجود در داده ها، مهم نیست که مدل چقدر کارآمد باشد، نتایج غیرقابل اعتماد خواهد بود.
در این دوره، مشکلات رایج دادهها را که از منابع مختلف میآیند، مورد بحث قرار میدهیم. ما همچنین در مورد چگونگی حل این مسائل به طور کامل بحث و اجرا می کنیم. هر مفهوم دارای سه جزء است که عبارتند از تبیین نظری، ارزیابی ریاضی و کد. سخنرانی *.1.* به تئوری و ارزیابی ریاضی یک مفهوم اشاره دارد در حالی که سخنرانی *.2.* به کد عملی هر مفهوم اشاره دارد. در *.1.*، اولین (*) به شماره بخش اشاره دارد، در حالی که (*) دوم به شماره سخنرانی در یک بخش اشاره دارد. همه کدها در پایتون با استفاده از Jupyter Notebook نوشته شده اند.
سرفصل ها و درس ها
معرفی
Introduction
معرفی
Introduction
کیفیت داده ها
Quality of Data
ارزشهای گمشده، نویز و موارد پرت
Missing Values, Noise and Outliers
نمونه هایی از ناهنجاری ها
Examples of Anomalies
مربی
Instructor
تشخیص مقادیر مفقود و نویز (غیر متغیر تک متغیره)
Detecting Missing and Noise Values (Univariate Outliers)
نمایش نظرات