وقتی برای اولین بار دست خود را روی یک مجموعه داده می گذاریم، نمی توانیم منتظر آزمایش چندین مدل و الگوریتم باشیم. این اشتباه است زیرا اگر قبل از تغذیه مدل خود اطلاعات را ندانیم، نتایج غیرقابل اعتماد خواهد بود و خود مدل مطمئناً شکست خواهد خورد. علاوه بر این، اگر از قبل بهترین ویژگیها را انتخاب نکنیم، مرحله آموزش کند میشود و مدل چیز مفیدی نمیآموزد.
بنابراین، اولین رویکردی که باید داشته باشیم این است که به مجموعه داده خود نگاهی بیندازیم و اطلاعاتی که در آن وجود دارد را تجسم کنیم. به عبارت دیگر، ما باید آن را بررسی کنیم.
هدف تجزیه و تحلیل داده های اکتشافی این است.
EDA مرحله مهمی از علم داده و یادگیری ماشین است. این به ما کمک می کند تا قبل از اعمال هر مدل یا الگوریتم، اطلاعات پنهان در یک مجموعه داده را بررسی کنیم. از تجسم داده ها استفاده زیادی می کند، بدون تعصب است.
بهعلاوه، به ما امکان میدهد بفهمیم که آیا ویژگیهای ما قدرت پیشبینی دارند یا خیر، و تعیین اینکه آیا پروژه یادگیری ماشینی که روی آن کار میکنیم شانس موفقیت دارد یا خیر. بدون EDA، ممکن است دادههای اشتباهی را به مدلی بدون موفقیت ارائه دهیم.
با این دوره، دانش آموز یاد می گیرد:
نحوه تجسم اطلاعاتی که در داخل مجموعه داده پنهان است
نحوه تجسم همبستگی و اهمیت ستون های یک مجموعه داده
چند کتابخانه مفید پایتون
همه درس ها عملی هستند و با استفاده از زبان برنامه نویسی پایتون و نوت بوک های Jupyter ساخته شده اند. همه نوت بوک ها قابل دانلود هستند.
معلم داده شما نام من Gianluca Malato است، من ایتالیایی هستم و دارای مدرک کارشناسی ارشد در فیزیک نظری سیستم های بی نظم در "La Sapienza" رم هستم. من یک دانشمند داده هستم که سال ها در بخش بانکداری و بیمه کار کرده ام. من تجربه زیادی در برنامه نویسی نرم افزار و مدیریت پروژه دارم و چندین سال است که با تجزیه و تحلیل داده ها و یادگیری ماشین در محیط شرکت سر و کار دارم. من همچنین در تجزیه و تحلیل داده ها (مانند پایگاه های داده رابطه ای و زبان SQL)، الگوریتم های عددی (به عنوان مثال ادغام ODE، الگوریتم های بهینه سازی) و شبیه سازی (مانند تکنیک های مونت کارلو) مهارت دارم. من مقالات زیادی در مورد یادگیری ماشینی، R و Python نوشتهام و نویسنده برتر رسانه در رده هوش مصنوعی بودهام.
نمایش نظرات