آموزش مدیریت خط لوله مهندسی داده با Apache Airflow

Data Engineering Pipeline Management with Apache Airflow

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:

با استفاده از Apache Airflow به مدیریت خطوط لوله مهندسی داده عمیق‌تر بپردازید. در این دوره، جانانی راوی، معمار ابری و مهندس داده خبره Google، شما را در استفاده از Apache Airflow برای تکمیل گردش‌های کاری مدیریت خط لوله مهندسی داده‌تان راهنمایی می‌کند. نحوه کار با کنترل دسترسی مبتنی بر نقش، از جمله ایجاد کاربران با نقش‌های مختلف، اجرای یک DAG شاخه‌دار و یک DAG SQL، یادآوری اقداماتی که کاربران با نقش‌های مختلف می‌توانند انجام دهند و موارد دیگر را بیاموزید. به نحوه مدیریت SLA ها و زمان بندی DAG ها با مجموعه داده ها بپردازید. نحوه کار با پلاگین های AirFlow را بیاموزید و افزونه CSV reader را بررسی کنید. به‌علاوه، نحوه مقیاس‌بندی Apache Airflow، راه‌اندازی خط لوله انتقال داده، اجرای وظایف و موارد دیگر را بیاموزید.

این دوره توسط جانانی راوی ایجاد شده است. ما خوشحالیم که میزبان این آموزش در کتابخانه خود هستیم.


سرفصل ها و درس ها

معرفی Introduction

  • ویژگی های مدیریت خط لوله مهندسی داده Features for data engineering pipeline management

1. کار با کنترل دسترسی مبتنی بر نقش 1. Working with Role-Based Access Control

  • پیش نیازها Prerequisites

  • نمای کلی نصب سریع Quick install overview

  • ایجاد یک کاربر ادمین و بررسی نقش ها Creating an admin user and exploring roles

  • ایجاد کاربران با نقش های مختلف Creating users with different roles

  • اجرای یک DAG انشعاب ساده Executing a simple branching DAG

  • اجرای یک SQL DAG ساده Executing a simple SQL DAG

  • نقش مردم و بیننده The public and viewer roles

  • نقش کاربر The user role

  • نقش عملیات The op role

  • اقدامات، منابع و مجوزها Actions, resources, and permissions

  • اضافه کردن مجوزها به نقش عمومی Adding permissions to the public role

  • ایجاد و پیکربندی یک نقش سفارشی Creating and configuring a custom role

2. مدیریت SLA ها 2. Managing SLAs

  • پیکربندی ایمیل ها برای مدیریت SLA Configuring emails for SLA management

  • پیکربندی SLA در سطح وظیفه Configuring task-level SLAs

  • راه اندازی و مشاهده خطاهای SLA Triggering and viewing SLA misses

  • پیکربندی SLA در سطح DAG Configuring DAG-level SLAs

  • پیکربندی عملکرد DAG ناموفق بود Configuring DAG failed action

3. زمان بندی DAG ها با مجموعه داده ها 3. Scheduling DAGs with Datasets

  • خط لوله تولید کننده مجموعه داده Dataset producer pipeline

  • خط لوله مصرف کننده مجموعه داده Dataset consumer pipeline

  • زمانبندی آگاهانه از داده Data-aware scheduling

  • خط لوله تولید کننده را خریداری می کند و خط لوله را می پیوندد Purchases producer pipeline and join pipeline

  • زمانبندی آگاهانه از داده با مجموعه داده های متعدد Data-aware scheduling with multiple datasets

4. کار با پلاگین های جریان هوا 4. Working with Airflow Plugins

  • معرفی پلاگین ها Introducing plugins

  • افزودن آیتم های منو با استفاده از افزونه ها Adding menu items using plugins

  • کاوش در افزونه CSV reader Exploring the CSV reader plugin

  • پیاده سازی افزونه CSV reader Implementing the CSV reader plugin

5. جرم گیری جریان هوا 5. Scaling Airflow

  • مقیاس پذیری جریان هوای آپاچی Scaling Apache Airflow

  • راه اندازی اولیه برای خط لوله تبدیل Basic setup for the transformation pipeline

  • DAG برای خط لوله انتقال DAG for the transformation pipeline

  • RabbitMQ را روی macOS و Linux نصب کنید Install RabbitMQ on macOS and Linux

  • یک کاربر مدیریت برای RabbitMQ تنظیم کنید Set up an admin user for RabbitMQ

  • پیکربندی CeleryExecutor برای جریان هوا Configuring the CeleryExecutor for Airflow

  • اجرای وظایف بر روی یک کارگر کرفس Executing tasks on a single Celery worker

  • اجرای وظایف بر روی چندین کارگر کرفس Executing tasks on multiple Celery workers

  • واگذاری وظایف به صف ها Assigning tasks to queues

نتیجه Conclusion

  • خلاصه و مراحل بعدی Summary and next steps

نمایش نظرات

آموزش مدیریت خط لوله مهندسی داده با Apache Airflow
جزییات دوره
2h 8m
37
Linkedin (لینکدین) Linkedin (لینکدین)
(آخرین آپدیت)
-
- از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.