دستکاری داده ها یک مهارت تجزیه و تحلیل داده های حیاتی است - در واقع، پایه و اساس تجزیه و تحلیل داده ها است. این دوره در مورد موثرترین ابزار دستکاری داده ها در R – dplyr است!
به عنوان یک تحلیلگر داده، مقدار زیادی از زمان خود را صرف تهیه یا پردازش داده های خود خواهید کرد. هدف از آماده سازی داده ها تبدیل داده های خام شما به یک منبع داده با کیفیت بالا و مناسب برای تجزیه و تحلیل است. اغلب اوقات، این فرآیند مستلزم کار زیادی است. بسته dplyr حاوی ابزارهایی است که می توانند این کار را بسیار آسان تر کنند.
dplyr چند مزیت مهم نسبت به سایر ابزارها یا توابع دستکاری داده ها دارد:
خیلی سریعتر است (25-30 برابر سریعتر)
نوشتن و درک کد آن آسانتر است
میتواند از زنجیرهای برای ساخت دنبالهای از دستورات استفاده کند، بنابراین کد را تمیزتر و سریعتر اجرا میکند
به این دلایل، dplyr به سرعت محبوب ترین ابزار دستکاری داده ها را در میان دانشمندان داده R آغاز کرد. پس از اتمام این دوره، می توانید
این یک دوره کوتاه است، اما بر روی ضروری ترین دستورات و عملکردهای بسته dplyr متمرکز است، دستوراتی که احتمالاً اغلب از آنها استفاده خواهید کرد.
پس بیایید ببینیم در این دوره قرار است چه چیزی یاد بگیرید.
بخش اول پنج دستور dplyr هسته ای را پوشش می دهد. این دستورات عبارتند از: فیلتر، انتخاب، جهش، ترتیب و خلاصه. شما عملاً هر بار که با dplyr کار می کنید به این دستورات نیاز خواهید داشت. آنها برای زیرمجموعه فریم های داده، محاسبه متغیرهای جدید، مرتب سازی فریم های داده، محاسبه شاخص های آماری و غیره استفاده می شوند. در اینجا چند سناریوی واقعی استفاده از آنها آورده شده است:
شما باید از مجموعه داده های پاسخ دهندگان خود، افراد مرد با درآمد بیش از 30000 دلار را استخراج کنید
با دانستن درآمد کل و تعداد اعضای خانواده، باید درآمد هر پاسخ دهنده را به ازای هر عضو خانواده محاسبه کنید
شما یک مجموعه داده با 27 متغیر دارید، اما تنها به 6 متغیر برای تجزیه و تحلیل خود نیاز دارید (بنابراین می خواهید متغیرهای اضافی را حذف کنید)
شما باید مجموعه داده های کارکنان خود را بر اساس حقوق مرتب کنید
شما باید میانگین رضایت از یک محصول را محاسبه کنید، با دانستن رضایت هر مشتری و غیره.
بخش دوم به سایر دستورات و توابع مهم dplyr می پردازد. در این بخش یاد خواهید گرفت:
نحوه شمارش مشاهده در یک گروه خاص
نحوه استخراج نمونه تصادفی از قاب داده
نحوه استخراج ورودی های برتر از قاب داده خود، بر اساس یک متغیر معین
نحوه تجسم ساختار مجموعه داده خود
نحوه استفاده از عملیات set در dplyr (اگر از این عملیات در پایه R استفاده کرده باشید، خواهید دید که dplyr آنها را به سطح کاملا جدیدی می برد).
در بخش سوم شما شروع به استفاده از قدرت واقعی dplyr خواهید کرد. در اینجا ما در مورد زنجیر کردن صحبت خواهیم کرد - ایجاد دنباله ای از دستورات dplyr که چندین کار را تنها با یک کلیک انجام می دهد.
بخش چهارم در مورد اتصال فریم های داده با dplyr است. این یک موضوع بسیار مهم است، زیرا بسیاری از اوقات داده های شما در چندین فریم داده پیدا می شود. بنابراین شما باید این فریم های داده را تنها به یکی بپیوندید که برای تحلیل های شما مناسب است. ما قصد داریم به پنج نوع اتصال موجود در dplyr نگاه کنیم: inner_join، semi_join، left_join، anti_join و full_join. ما قصد داریم خروجی هر نوع اتصال را با استفاده از یک مثال ساده بررسی کنیم.
در بخش پنجم، نحوه ترکیب دستورات dplyr و ggplot2 (با استفاده از زنجیره) برای ساختن نمودارها و نمودارهای رسا را یاد خواهیم گرفت. برای مثال، اگر میخواهید توزیع درآمد را فقط برای افراد دارای تحصیلات عالی نشان دهید، یا رابطه بین درآمد و سطح تحصیلات را فقط برای افراد زن نشان دهید، در این بخش دقیقاً نحوه انجام آن را خواهید آموخت.
هر دستور با ویدئو نشان داده شده است، هم نحو و هم خروجی به تفصیل توضیح داده شده است. در پایان دوره، تعداد زیادی تمرین عملی پیشنهاد می شود. با انجام این تمرینات شما در عمل آنچه را که آموخته اید به کار خواهید برد.
همین حالا به این دوره بپیوندید و توانایی تجزیه و تحلیل داده های حیاتی را کسب کنید - دستکاری داده ها!
مدرس و مشاور دانشگاه نام من بوگدان آناستازئی است و استادیار دانشگاه ایاسی رومانی ، دانشکده اقتصاد و مدیریت بازرگانی هستم. من بازاریابی اینترنتی و روشهای کمی را برای تجارت آموزش می دهم. من همچنین یک مشاور بازرگانی هستم. من تجزیه و تحلیل ریسک کمی و مطالعات امکان سنجی را برای مشاغل مختلف محلی انجام داده ام و در پروژه های دانشگاهی در مورد تجزیه و تحلیل ریسک و تجزیه و تحلیل بازاریابی مثر است. من همچنین دوره ها و مقالاتی در مورد بازاریابی اینترنتی و فنون ارتباط آنلاین نوشتم. من 24 سال سابقه تدریس و حدود 15 سال سابقه مشاوره بازرگانی دارم.
نمایش نظرات