لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش مصرف داده با پایتون
Data Ingestion with Python
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
بخش قابل توجهی از روز دانشمند داده اغلب برای واکشی و تمیز کردن داده های مورد نیاز برای آموزش الگوریتم هایشان صرف می شود. در این دوره ، یاد بگیرید که چگونه از ابزارها و تکنیک های پایتون برای بدست آوردن داده های مربوطه و باکیفیت مورد نیاز خود استفاده کنید. مربی Miki Tebeka خواندن پرونده ها را شامل می شود ، از جمله نحوه کار با فایل های CSV ، XML و JSON. وی همچنین در مورد فراخوانی API ها ، وب تراشیدن (و اینکه چرا باید آخرین چاره باشد) و اعتبار سنجی و تمیز کردن داده ها صحبت می کند. به علاوه ، نحوه ایجاد و نظارت بر شاخص های اصلی عملکرد (KPI) را که به شما کمک می کنند خط لوله داده خود را کنترل کنید ، کشف کنید.
موضوعات شامل:
چرا مصرف داده مهم است؟ li>
کار در CSV ، XML و پارکت / Avro / ORC
کار با JSON
برقراری تماس HTTP li>
استفاده از چارچوب Scrap برای نوشتن سیستم خراش li>
چه مواردی باید در طرح وجود داشته باشد؟ li>
کار با پایگاه داده های رابطه ای ، مقدار کلیدی و اسناد li>
عیب یابی داده ها li>
نظارت بر KPI ها li>
سرفصل ها و درس ها
مقدمه
Introduction
چرا مصرف داده مهم است؟
Why is data inegstion important?
آنچه باید بدانید
What you should know
با استفاده از پرونده های تمرینی
Using the exercise files
1. مرور اجمالی داده ها
1. Data Ingestion Overview
مروری بر دانشمندان داده ها
Overview of data scientists work
داده ها از کجا آمده است؟
Where does data come from?
انواع مختلف داده ها
Different types of data
خط لوله داده (ETL)
The data pipeline (ETL)
مقصد نهایی (دریاچه داده)
Final destination (data lake)
2. خواندن پرونده ها
2. Reading Files
کار در CSV
Working in CSV
کار در XML
Working in XML
کار در پارکت ، Avro و ORC
Working in Parquet, Avro, and ORC
متن بدون ساختار
Unstructured text
JSON
JSON
چالش: CSV به JSON
Challenge: CSV to JSON
راه حل: CSV به JSON
Solution: CSV to JSON
3. تماس با API ها
3. Calling APIs
همکاری با JSON
Working with JSON
برقراری تماس HTTP
Making HTTP calls
پردازش داده های مبتنی بر رویداد
Processing event-based data
چالش: مکان از IP
Challenge: Location from IP
راه حل: مکان از IP
Solution: Location from IP
4. خراش دادن وب
4. Web Scraping
سعی کنید API را پیدا کنید
Try to find an API
کار با سوپ زیبا
Working with Beautiful Soup
کار با Scrapy
Working with Scrapy
همکاری با سلنیوم
Working with Selenium
ملاحظات دیگر
Other considerations
Challenge: GitHub API
Challenge: GitHub API
راه حل: API GitHub
Solution: GitHub API
5. طرحواره
5. Schema
طرحواره ها چیست؟
What are schemas?
کار با هستی شناسی
Working with ontologies
آنچه باید در طرحواره باشد
What should be in schema
طرحواره تغییر می کند
Schema changes
اعتبار سنجی طرحواره
Schema validations
6. کار با بانکهای اطلاعاتی
6. Working with Databases
انواع بانکهای اطلاعاتی
Types of databases
میزبانی و هزینه گزینه ها
Hosted and cost of ops
کار با بانکهای اطلاعاتی رابطه ای
Working with relational databases
کار با بانکهای اطلاعاتی کلیدی یا ارزش
Working with key or value databases
کار با بانکهای اطلاعاتی
Working with document databases
کار با بانکهای اطلاعاتی نمودار
Working with graph databases
چالش: ETL
Challenge: ETL
راه حل: ETL
Solution: ETL
7. داده عیب یابی
7. Troubleshooting Data
داده ها هرگز 100٪ خوب نیست
Data is never 100% okay
علل خطا
Causes of errors
مقادیر گمشده را پر می کند
Filling missing values
پیدا کردن محل های دور (دستی)
Finding outliers (manual)
یافتن مسافت های دور (ML)
Finding outliers (ML)
چالش: دوچرخه را با توجه به مدت زمان سواری تمیز کنید
Challenge: Clean rides according to ride duration
راه حل: دوچرخه را با توجه به مدت زمان سواری تمیز کنید
Solution: Clean rides according to ride duration
8- KPI ها و پردازش داده ها
8. Data KPIs and Process
در کار خود در 353Solutions، Miki کارگاه های عملی ارائه می دهد که به متخصصان کمک می کند درک خود را از Python تقویت کنند. و برو. علاوه بر این، او خدمات مشاوره ای متناسب با تخصص در ساخت زیرساخت های کلان داده را ارائه می دهد. همانطور که کار او در 353Solutions نشان می دهد، او در Python and Go و همچنین C++، JavaScript، Clojure و موارد دیگر مهارت بالایی دارد.
نمایش نظرات