🔔 با توجه به بهبود نسبی اینترنت، آمادهسازی دورهها آغاز شده است. به دلیل تداوم برخی اختلالات، بارگذاری دورهها ممکن است با کمی تأخیر انجام شود. مدت اشتراکهای تهیهشده محفوظ است.
لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش پاکسازی داده در پایتون
- آخرین آپدیت
دانلود Data Cleaning in Python
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
آمادهسازی، ساختاردهی و نرمالسازی دادهها
پاکسازی داده (Data Cleaning یا Data Cleansing) به عنوان یک مرحله پیش پردازش برای سازگارتر و با کیفیتتر کردن دادهها قبل از آموزش مدلهای پیشبینیکننده، انجام میشود.
پیشنیازها: مبانی پایتون
پاکسازی داده (Data Cleaning یا Data Cleansing) از منظر ساخت سیستمهای هوشمند خودکار، اهمیت بسیار زیادی دارد. پاکسازی داده، یک مرحله پیش پردازش است که اعتبار، دقت، کامل بودن، سازگاری و یکنواختی دادهها را بهبود میبخشد. این فرآیند برای ساخت مدلهای یادگیری ماشین قابل اعتماد که میتوانند نتایج خوبی تولید کنند، ضروری است. در غیر این صورت، هرچقدر هم که مدل عالی باشد، نمیتوان به نتایج آن اعتماد کرد. مبتدیان یادگیری ماشین، کار خود را با مجموعهدادههای عمومی که به طور کامل با چنین مسائلی تجزیه و تحلیل شدهاند آغاز میکنند و بنابراین آماده استفاده برای آموزش مدلها و کسب نتایج خوب هستند. اما این واقعیت با نحوه واقعی دادهها در دنیای واقعی بسیار متفاوت است. مشکلات رایج دادهها ممکن است شامل مقادیر گمشده، مقادیر نویز یا دادههای پرت تکمتغیره (univariate outliers)، دادههای پرت چندمتغیره (multivariate outliers)، دادههای تکراری، بهبود کیفیت دادهها از طریق استانداردسازی و نرمالسازی آن، و مدیریت ویژگیهای دستهای (categorical features) باشد. مجموعهدادههایی که در فرم خام هستند و تمام این مشکلات را دارند، بدون آگاهی از مراحل پاکسازی داده و پیش پردازش، قابل استفاده نخواهند بود. دادههایی که مستقیماً از منابع آنلاین متعدد برای ساخت اپلیکیشنهای مفید به دست میآیند، حتی بیشتر در معرض چنین مشکلاتی قرار دارند. بنابراین، یادگیری مهارتهای پاکسازی داده به کاربران کمک میکند تا تحلیلهای مفیدی با دادههای کسبوکار خود انجام دهند. در غیر این صورت، عبارت "garbage in garbage out" (ورودی زباله، خروجی زباله) به این واقعیت اشاره دارد که بدون رفع مشکلات دادهها، هرچقدر هم مدل کارآمد باشد، نتایج غیرقابل اعتماد خواهند بود.
در این دوره، ما مشکلات رایج دادهها را که از منابع مختلف میآیند، مورد بحث قرار میدهیم. همچنین نحوه رفع این مشکلات را به طور کامل مورد بحث و پیادهسازی قرار خواهیم داد. هر مفهوم شامل سه بخش است: توضیح نظری، ارزیابی ریاضی و کد. سخنرانیهای *.1.* به ارزیابی نظری و ریاضی یک مفهوم اشاره دارند، در حالی که سخنرانیهای *.2.* به کد عملی هر مفهوم اشاره میکنند. در *.1.*، ستاره اول (*) به شماره بخش اشاره دارد، در حالی که ستاره دوم (*) به شماره سخنرانی در داخل یک بخش اشاره میکند. تمام کدها در پایتون با استفاده از Jupyter Notebook نوشته شدهاند.
سرفصل ها و درس ها
مقدمه
Introduction
مقدمه
Introduction
کیفیت دادهها
Quality of Data
مقادیر گمشده، نویز و دادههای پرت
Missing Values, Noise and Outliers
مثالهایی از ناهنجاریها
Examples of Anomalies
مدرس
Instructor
شناسایی مقادیر گمشده و نویز (دادههای پرت تکمتغیره)
Detecting Missing and Noise Values (Univariate Outliers)
نمایش نظرات