دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش مصرف داده با پایتون

Data Ingestion with Python

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: بخش قابل توجهی از روز دانشمند داده اغلب برای واکشی و تمیز کردن داده های مورد نیاز برای آموزش الگوریتم هایشان صرف می شود. در این دوره ، یاد بگیرید که چگونه از ابزارها و تکنیک های پایتون برای بدست آوردن داده های مربوطه و باکیفیت مورد نیاز خود استفاده کنید. مربی Miki Tebeka خواندن پرونده ها را شامل می شود ، از جمله نحوه کار با فایل های CSV ، XML و JSON. وی همچنین در مورد فراخوانی API ها ، وب تراشیدن (و اینکه چرا باید آخرین چاره باشد) و اعتبار سنجی و تمیز کردن داده ها صحبت می کند. به علاوه ، نحوه ایجاد و نظارت بر شاخص های اصلی عملکرد (KPI) را که به شما کمک می کنند خط لوله داده خود را کنترل کنید ، کشف کنید.

موضوعات شامل:

چرا مصرف داده مهم است؟
کار در CSV ، XML و پارکت / Avro / ORC
کار با JSON
برقراری تماس HTTP
استفاده از چارچوب Scrap برای نوشتن سیستم خراش
چه مواردی باید در طرح وجود داشته باشد؟
کار با پایگاه داده های رابطه ای ، مقدار کلیدی و اسناد
عیب یابی داده ها
نظارت بر KPI ها

سرفصل ها و درس ها

مقدمه Introduction

چرا مصرف داده مهم است؟ Why is data inegstion important?
آنچه باید بدانید What you should know
با استفاده از پرونده های تمرینی Using the exercise files

1. مرور اجمالی داده ها 1. Data Ingestion Overview

مروری بر دانشمندان داده ها Overview of data scientists work
داده ها از کجا آمده است؟ Where does data come from?
انواع مختلف داده ها Different types of data
خط لوله داده (ETL) The data pipeline (ETL)
مقصد نهایی (دریاچه داده) Final destination (data lake)

2. خواندن پرونده ها 2. Reading Files

کار در CSV Working in CSV
کار در XML Working in XML
کار در پارکت ، Avro و ORC Working in Parquet, Avro, and ORC
متن بدون ساختار Unstructured text
JSON JSON
چالش: CSV به JSON Challenge: CSV to JSON
راه حل: CSV به JSON Solution: CSV to JSON

3. تماس با API ها 3. Calling APIs

همکاری با JSON Working with JSON
برقراری تماس HTTP Making HTTP calls
پردازش داده های مبتنی بر رویداد Processing event-based data
چالش: مکان از IP Challenge: Location from IP
راه حل: مکان از IP Solution: Location from IP

4. خراش دادن وب 4. Web Scraping

سعی کنید API را پیدا کنید Try to find an API
کار با سوپ زیبا Working with Beautiful Soup
کار با Scrapy Working with Scrapy
همکاری با سلنیوم Working with Selenium
ملاحظات دیگر Other considerations
Challenge: GitHub API Challenge: GitHub API
راه حل: API GitHub Solution: GitHub API

5. طرحواره 5. Schema

طرحواره ها چیست؟ What are schemas?
کار با هستی شناسی Working with ontologies
آنچه باید در طرحواره باشد What should be in schema
طرحواره تغییر می کند Schema changes
اعتبار سنجی طرحواره Schema validations

6. کار با بانکهای اطلاعاتی 6. Working with Databases

انواع بانکهای اطلاعاتی Types of databases
میزبانی و هزینه گزینه ها Hosted and cost of ops
کار با بانکهای اطلاعاتی رابطه ای Working with relational databases
کار با بانکهای اطلاعاتی کلیدی یا ارزش Working with key or value databases
کار با بانکهای اطلاعاتی Working with document databases
کار با بانکهای اطلاعاتی نمودار Working with graph databases
چالش: ETL Challenge: ETL
راه حل: ETL Solution: ETL

7. داده عیب یابی 7. Troubleshooting Data

داده ها هرگز 100٪ خوب نیست Data is never 100% okay
علل خطا Causes of errors
مقادیر گمشده را پر می کند Filling missing values
پیدا کردن محل های دور (دستی) Finding outliers (manual)
یافتن مسافت های دور (ML) Finding outliers (ML)
چالش: دوچرخه را با توجه به مدت زمان سواری تمیز کنید Challenge: Clean rides according to ride duration
راه حل: دوچرخه را با توجه به مدت زمان سواری تمیز کنید Solution: Clean rides according to ride duration

8- KPI ها و پردازش داده ها 8. Data KPIs and Process

داده های خود را طراحی کنید Design your data
KPI KPIs
چه چیزی را کنترل کنیم؟ What to monitor?

نتیجه Conclusion

مراحل بعدی Next steps

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

جزییات دوره

زمان دوره: 1h 25m

تعداد ویدیو ها: 51

شرکت: Linkedin (لینکدین)

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع : 19,742

امتیاز مرجع: - از 5

فایل تمرین: ندارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Miki Tebeka

لینک کوتاه این دوره

https://donyad.com/d/c44c

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Miki Tebeka

مدیر عامل در 353Solutions

Miki Tebeka مدیرعامل 353Solutions است.

در کار خود در 353Solutions، Miki کارگاه های عملی ارائه می دهد که به متخصصان کمک می کند درک خود را از Python تقویت کنند. و برو. علاوه بر این، او خدمات مشاوره ای متناسب با تخصص در ساخت زیرساخت های کلان داده را ارائه می دهد. همانطور که کار او در 353Solutions نشان می دهد، او در Python and Go و همچنین C++، JavaScript، Clojure و موارد دیگر مهارت بالایی دارد.

Python پایتون Big Data IT داده های بزرگ

آموزش مصرف داده با پایتون

Data Ingestion with Python

مقدمه Introduction

چرا مصرف داده مهم است؟ Why is data inegstion important?

آنچه باید بدانید What you should know

با استفاده از پرونده های تمرینی Using the exercise files

1. مرور اجمالی داده ها 1. Data Ingestion Overview

مروری بر دانشمندان داده ها Overview of data scientists work

داده ها از کجا آمده است؟ Where does data come from?

انواع مختلف داده ها Different types of data

خط لوله داده (ETL) The data pipeline (ETL)

مقصد نهایی (دریاچه داده) Final destination (data lake)

2. خواندن پرونده ها 2. Reading Files

کار در CSV Working in CSV

کار در XML Working in XML

کار در پارکت ، Avro و ORC Working in Parquet, Avro, and ORC

متن بدون ساختار Unstructured text

JSON JSON

چالش: CSV به JSON Challenge: CSV to JSON

راه حل: CSV به JSON Solution: CSV to JSON

3. تماس با API ها 3. Calling APIs

همکاری با JSON Working with JSON

برقراری تماس HTTP Making HTTP calls

پردازش داده های مبتنی بر رویداد Processing event-based data

چالش: مکان از IP Challenge: Location from IP

راه حل: مکان از IP Solution: Location from IP

4. خراش دادن وب 4. Web Scraping

سعی کنید API را پیدا کنید Try to find an API

کار با سوپ زیبا Working with Beautiful Soup

کار با Scrapy Working with Scrapy

همکاری با سلنیوم Working with Selenium

ملاحظات دیگر Other considerations

Challenge: GitHub API Challenge: GitHub API

راه حل: API GitHub Solution: GitHub API

5. طرحواره 5. Schema

طرحواره ها چیست؟ What are schemas?

کار با هستی شناسی Working with ontologies

آنچه باید در طرحواره باشد What should be in schema

طرحواره تغییر می کند Schema changes

اعتبار سنجی طرحواره Schema validations

6. کار با بانکهای اطلاعاتی 6. Working with Databases

انواع بانکهای اطلاعاتی Types of databases

میزبانی و هزینه گزینه ها Hosted and cost of ops

کار با بانکهای اطلاعاتی رابطه ای Working with relational databases

کار با بانکهای اطلاعاتی کلیدی یا ارزش Working with key or value databases

کار با بانکهای اطلاعاتی Working with document databases

کار با بانکهای اطلاعاتی نمودار Working with graph databases

چالش: ETL Challenge: ETL

راه حل: ETL Solution: ETL

7. داده عیب یابی 7. Troubleshooting Data

داده ها هرگز 100٪ خوب نیست Data is never 100% okay

علل خطا Causes of errors

مقادیر گمشده را پر می کند Filling missing values

پیدا کردن محل های دور (دستی) Finding outliers (manual)

یافتن مسافت های دور (ML) Finding outliers (ML)

چالش: دوچرخه را با توجه به مدت زمان سواری تمیز کنید Challenge: Clean rides according to ride duration

راه حل: دوچرخه را با توجه به مدت زمان سواری تمیز کنید Solution: Clean rides according to ride duration

8- KPI ها و پردازش داده ها 8. Data KPIs and Process

داده های خود را طراحی کنید Design your data

KPI KPIs

چه چیزی را کنترل کنیم؟ What to monitor?

نتیجه Conclusion

مراحل بعدی Next steps

نمایش نظرات

https://donyad.com/d/c44c