آموزش مهندس داده با Google Dataflow و Apache Beam

Data Engineer with Google Dataflow and Apache Beam

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: اولین گام برای استخراج، تبدیل و بارگذاری داده ها با استفاده از پرتو Apache و استقرار خطوط لوله در Google Dataflow Apache Beam ETL Python Google Cloud DataFlow Google Cloud Storage جستجوی بزرگ پیش نیازها:حساب GCP رایگان پایتون پایه

این دوره می‌خواهد شما را با جدیدترین چارچوب توسعه خط لوله داده بنیاد آپاچی آشنا کند: پرتو Apache، و نحوه محبوب شدن این ویژگی با مشارکت Google Dataflow. به طور خلاصه، می خواهیم موضوعات زیر را پوشش دهیم:


1. کارهای درونی خود را درک کنید

2. مزایای شما چیست

3. نحوه استفاده از دستگاه محلی خود را بدون نصب از طریق Google Colab برای توسعه توضیح دهید

4. توابع اصلی آن

5. پیکربندی Apache Beam python SDK locallyvice

6. نحوه استقرار این منبع در Google Dataflow در خط لوله دسته ای


این دوره پویا است، در صورت امکان به‌روزرسانی‌ها را دریافت خواهید کرد.

به خاطر داشته باشید که این دوره پایتون را آموزش نمی‌دهد، اما از آن استفاده می‌کند. بنابراین، با دانستن اصول اولیه پایتون، تعریف یک تابع، ایجاد اشیا و انواع داده راحت باشید.

همچنین، اگر به یادگیری بخش 4 که شامل استقرار خط لوله در Google Dataflow است علاقه دارید، باید یک شمارنده رایگان در GCP داشته باشید. این یک فرآیند ساده است، اما به کارت اعتباری نیاز دارد!


_________________________________________________________________________________________________


شرایط مورد نیاز:

· دانش اولیه پایتون

· پایتون 3.7 یا بالاتر را به صورت محلی نصب کنید (از بخش 4)

· حساب رایگان در GCP (از بخش 4)


زمان‌بندی:

· بخش 2 - مفاهیم

· بخش 3 - توابع اصلی

· بخش 4 - پرتو آپاچی در جریان داده Google


سرفصل ها و درس ها

مفاهیم پرتو آپاچی Apache Beam Concepts

  • 2.1 پرتو آپاچی چیست؟ 2.1 What is Apache Beam ?

  • 2.2 نمای کلی معماری پرتو آپاچی 2.2 Apache Beam Architecture Overview

  • 2.3 جریان خط لوله پرتو آپاچی 2.3 Apache Beam Pipeline Flow

مفاهیم پرتو آپاچی Apache Beam Concepts

  • 2.1 پرتو آپاچی چیست؟ 2.1 What is Apache Beam ?

  • 2.2 نمای کلی معماری پرتو آپاچی 2.2 Apache Beam Architecture Overview

  • 2.3 جریان خط لوله پرتو آپاچی 2.3 Apache Beam Pipeline Flow

توابع اصلی پرتو آپاچی Apache Beam Main Functions

  • 3.1 استفاده از Apache Beam در Google Colab 3.1 Using Apache Beam In Google Colab

  • 3.2 خواندن ورودی ها 3.2 Read Inputs

  • 3.3 خروجی ها را بنویسید 3.3 Write Outputs

  • 3.4 beam.Map/beam.FlatMap 3.4 beam.Map / beam.FlatMap

  • 3.5 پرتو.فیلتر 3.5 beam.Filter

  • پرتو 3.6. مسطح 3.6 beam.Flatten

  • پرتو 3.7.CombinePerKey 3.7 beam.CombinePerKey

  • 3.8 beam.combiners.Count.PerKey() 3.8 beam.combiners.Count.PerKey()

  • پرتو 3.9.CoGroupByKey 3.9 beam.CoGroupByKey

  • 3.10 ParDo - سفارشی کردن عملکردهای پرتو 3.10 ParDo – Customizing Beam Functions

توابع اصلی پرتو آپاچی Apache Beam Main Functions

  • 3.1 استفاده از Apache Beam در Google Colab 3.1 Using Apache Beam In Google Colab

  • 3.2 خواندن ورودی ها 3.2 Read Inputs

  • 3.3 خروجی ها را بنویسید 3.3 Write Outputs

  • 3.4 beam.Map/beam.FlatMap 3.4 beam.Map / beam.FlatMap

  • 3.5 پرتو.فیلتر 3.5 beam.Filter

  • پرتو 3.6. مسطح 3.6 beam.Flatten

  • پرتو 3.7.CombinePerKey 3.7 beam.CombinePerKey

  • 3.8 beam.combiners.Count.PerKey() 3.8 beam.combiners.Count.PerKey()

  • پرتو 3.9.CoGroupByKey 3.9 beam.CoGroupByKey

  • 3.10 ParDo - سفارشی کردن عملکردهای پرتو 3.10 ParDo – Customizing Beam Functions

خطوط لوله جریان داده دسته ای Batch Dataflow Pipelines

  • 4.1 راه اندازی GCP 4.1 GCP Setup

  • 4.2 ایجاد حساب سرویس و یک سطل در GCP 4.2 Creating Service Account and a Bucket on GCP

  • 4.3 راه اندازی Apache Beam Local (SDK) 4.3 Setup Apache Beam Local (SDK)

  • 4.4 اجرای مستقیم Runner + ذخیره در GCS 4.4 Direct Runner Execution + Saving to GCS

  • 4.5 ایجاد یک الگوی جریان داده 4.5 Creating a Dataflow Template

  • 4.6 اجرای Batch Job در Dataflow 4.6 Executing Batch Job in Dataflow

  • 4.7 ایجاد الگوی Dataflow برای نوشتن در Big Query 4.7 Creating Dataflow Template to write in Big Query

  • 4.8 اجرای کار دسته ای برای نوشتن در Big Query 4.8 Executing Batch Job to write in Big Query

خطوط لوله جریان داده دسته ای Batch Dataflow Pipelines

  • 4.1 راه اندازی GCP 4.1 GCP Setup

  • 4.2 ایجاد حساب سرویس و یک سطل در GCP 4.2 Creating Service Account and a Bucket on GCP

  • 4.3 راه اندازی Apache Beam Local (SDK) 4.3 Setup Apache Beam Local (SDK)

  • 4.4 اجرای مستقیم Runner + ذخیره در GCS 4.4 Direct Runner Execution + Saving to GCS

  • 4.5 ایجاد یک الگوی جریان داده 4.5 Creating a Dataflow Template

  • 4.6 اجرای Batch Job در Dataflow 4.6 Executing Batch Job in Dataflow

  • 4.7 ایجاد الگوی Dataflow برای نوشتن در Big Query 4.7 Creating Dataflow Template to write in Big Query

  • 4.8 اجرای کار دسته ای برای نوشتن در Big Query 4.8 Executing Batch Job to write in Big Query

خطوط لوله جریان داده در زمان واقعی Real time Dataflow Pipelines

  • 5.0 سلب مسئولیت 5.0 Disclaimer

  • 5.1 کارهای جریانی (زیرنویس آزمایشی) 5.1 Streaming Tasks (test subtitles)

  • 5.2 بررسی اجمالی و ایجاد Pub Sub 5.2 Pub Sub Overview and Creation

  • 5.3 ایجاد یک تولید کننده 5.3 Creating a Producer

خطوط لوله جریان داده در زمان واقعی Real time Dataflow Pipelines

  • 5.0 سلب مسئولیت 5.0 Disclaimer

  • 5.1 کارهای جریانی (زیرنویس آزمایشی) 5.1 Streaming Tasks (test subtitles)

  • 5.2 بررسی اجمالی و ایجاد Pub Sub 5.2 Pub Sub Overview and Creation

  • 5.3 ایجاد یک تولید کننده 5.3 Creating a Producer

نمایش نظرات

آموزش مهندس داده با Google Dataflow و Apache Beam
جزییات دوره
2.5 hours
25
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,004
4 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Cassio Alessandro de Bolba Cassio Alessandro de Bolba

مهندس داده