آموزش مصرف داده با پایتون

Data Ingestion with Python

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: بخش قابل توجهی از روز دانشمند داده اغلب برای واکشی و تمیز کردن داده های مورد نیاز برای آموزش الگوریتم هایشان صرف می شود. در این دوره ، یاد بگیرید که چگونه از ابزارها و تکنیک های پایتون برای بدست آوردن داده های مربوطه و باکیفیت مورد نیاز خود استفاده کنید. مربی Miki Tebeka خواندن پرونده ها را شامل می شود ، از جمله نحوه کار با فایل های CSV ، XML و JSON. وی همچنین در مورد فراخوانی API ها ، وب تراشیدن (و اینکه چرا باید آخرین چاره باشد) و اعتبار سنجی و تمیز کردن داده ها صحبت می کند. به علاوه ، نحوه ایجاد و نظارت بر شاخص های اصلی عملکرد (KPI) را که به شما کمک می کنند خط لوله داده خود را کنترل کنید ، کشف کنید.
موضوعات شامل:
  • چرا مصرف داده مهم است؟
  • کار در CSV ، XML و پارکت / Avro / ORC
  • کار با JSON
  • برقراری تماس HTTP
  • استفاده از چارچوب Scrap برای نوشتن سیستم خراش
  • چه مواردی باید در طرح وجود داشته باشد؟
  • کار با پایگاه داده های رابطه ای ، مقدار کلیدی و اسناد
  • عیب یابی داده ها
  • نظارت بر KPI ها

سرفصل ها و درس ها

مقدمه Introduction

  • چرا مصرف داده مهم است؟ Why is data inegstion important?

  • آنچه باید بدانید What you should know

  • با استفاده از پرونده های تمرینی Using the exercise files

1. مرور اجمالی داده ها 1. Data Ingestion Overview

  • مروری بر دانشمندان داده ها Overview of data scientists work

  • داده ها از کجا آمده است؟ Where does data come from?

  • انواع مختلف داده ها Different types of data

  • خط لوله داده (ETL) The data pipeline (ETL)

  • مقصد نهایی (دریاچه داده) Final destination (data lake)

2. خواندن پرونده ها 2. Reading Files

  • کار در CSV Working in CSV

  • کار در XML Working in XML

  • کار در پارکت ، Avro و ORC Working in Parquet, Avro, and ORC

  • متن بدون ساختار Unstructured text

  • JSON JSON

  • چالش: CSV به JSON Challenge: CSV to JSON

  • راه حل: CSV به JSON Solution: CSV to JSON

3. تماس با API ها 3. Calling APIs

  • همکاری با JSON Working with JSON

  • برقراری تماس HTTP Making HTTP calls

  • پردازش داده های مبتنی بر رویداد Processing event-based data

  • چالش: مکان از IP Challenge: Location from IP

  • راه حل: مکان از IP Solution: Location from IP

4. خراش دادن وب 4. Web Scraping

  • سعی کنید API را پیدا کنید Try to find an API

  • کار با سوپ زیبا Working with Beautiful Soup

  • کار با Scrapy Working with Scrapy

  • همکاری با سلنیوم Working with Selenium

  • ملاحظات دیگر Other considerations

  • Challenge: GitHub API Challenge: GitHub API

  • راه حل: API GitHub Solution: GitHub API

5. طرحواره 5. Schema

  • طرحواره ها چیست؟ What are schemas?

  • کار با هستی شناسی Working with ontologies

  • آنچه باید در طرحواره باشد What should be in schema

  • طرحواره تغییر می کند Schema changes

  • اعتبار سنجی طرحواره Schema validations

6. کار با بانکهای اطلاعاتی 6. Working with Databases

  • انواع بانکهای اطلاعاتی Types of databases

  • میزبانی و هزینه گزینه ها Hosted and cost of ops

  • کار با بانکهای اطلاعاتی رابطه ای Working with relational databases

  • کار با بانکهای اطلاعاتی کلیدی یا ارزش Working with key or value databases

  • کار با بانکهای اطلاعاتی Working with document databases

  • کار با بانکهای اطلاعاتی نمودار Working with graph databases

  • چالش: ETL Challenge: ETL

  • راه حل: ETL Solution: ETL

7. داده عیب یابی 7. Troubleshooting Data

  • داده ها هرگز 100٪ خوب نیست Data is never 100% okay

  • علل خطا Causes of errors

  • مقادیر گمشده را پر می کند Filling missing values

  • پیدا کردن محل های دور (دستی) Finding outliers (manual)

  • یافتن مسافت های دور (ML) Finding outliers (ML)

  • چالش: دوچرخه را با توجه به مدت زمان سواری تمیز کنید Challenge: Clean rides according to ride duration

  • راه حل: دوچرخه را با توجه به مدت زمان سواری تمیز کنید Solution: Clean rides according to ride duration

8- KPI ها و پردازش داده ها 8. Data KPIs and Process

  • داده های خود را طراحی کنید Design your data

  • KPI KPIs

  • چه چیزی را کنترل کنیم؟ What to monitor?

نتیجه Conclusion

  • مراحل بعدی Next steps

نمایش نظرات

آموزش مصرف داده با پایتون
جزییات دوره
1h 25m
51
Linkedin (لینکدین) Linkedin (لینکدین)
(آخرین آپدیت)
19,742
- از 5
ندارد
دارد
دارد
Miki Tebeka
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Miki Tebeka Miki Tebeka

مدیر عامل در 353Solutions

Miki Tebeka مدیرعامل 353Solutions است.

در کار خود در 353Solutions، Miki کارگاه های عملی ارائه می دهد که به متخصصان کمک می کند درک خود را از Python تقویت کنند. و برو. علاوه بر این، او خدمات مشاوره ای متناسب با تخصص در ساخت زیرساخت های کلان داده را ارائه می دهد. همانطور که کار او در 353Solutions نشان می دهد، او در Python and Go و همچنین C++، JavaScript، Clojure و موارد دیگر مهارت بالایی دارد.