آموزش مدیریت داده های جریان داده با Azure Databricks با استفاده از Spark Streamed Streaming

Handling Streaming Data with Azure Databricks Using Spark Structured Streaming

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره: در این دوره ، شما به جریان جرقه ای Spark Structured Streaming فرو رفته ، ویژگی های آن را در عمل مشاهده خواهید کرد و از آن برای ساخت خطوط انتقال جریان پایان به انتها ، پیچیده و قابل اعتماد با استفاده از PySpark استفاده خواهید کرد. و شما از پلت فرم Azure Databricks برای ساخت و اجرای آنها استفاده خواهید کرد. خطوط لوله داده مدرن اغلب شامل داده های جریانی هستند که باید در زمان واقعی پردازش شوند. در یک سناریوی عملی ، برای تولید مداوم نتایج لازم است با چندین جریان و مجموعه داده کنار بیایید. در این دوره ، مدیریت داده های جریانی داده با Azure Databricks با استفاده از Spark Streamed Streaming ، شما خواهید آموخت که چگونه از Spark Streamed Streaming در بستر Databricks که در Microsoft Azure در حال اجرا است ، استفاده کنید و از ویژگی های آن برای ساخت خطوط لوله جریان به پایان استفاده کنید. در ابتدا ، یک جمع بندی سریع از مدل پردازش Spark Structured Streaming را مشاهده خواهید کرد. سناریوی پیاده سازی را درک کرده و تنظیمات محیط را کامل کنید. در مرحله بعدی ، نحوه پیکربندی منابع و سینک ها و ساختن هر مرحله از خط لوله جریان را یاد خواهید گرفت - با استخراج داده ها از منابع مختلف ، تبدیل آنها و بارگیری در چندین غرق - Azure Data Lake ، Azure Event Hubs و Azure SQL . همچنین می توانید مهر زمان های مختلف مرتبط با یک رویداد و نحوه جمع آوری داده ها با استفاده از ویندوز را مشاهده کنید. در مرحله بعدی ، نحوه ترکیب یک جریان ، با مجموعه داده های ایستا یا تاریخی را مشاهده خواهید کرد. و نحوه ترکیب چندین جریان با هم. در آخر ، شما می آموزید که چگونه یک خط لوله آماده تولید ایجاد کنید ، آن را به عنوان یک کار در Databricks برنامه ریزی کنید و با استفاده از Databricks CLI آنها را مدیریت کنید. هنگامی که با این دوره به پایان رسیدید ، برای حل انواع مشکلات تجاری راحت خواهید بود که خطوط لوله پیچیده جریان را با استفاده از Azure Databricks اجرا می کنید.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

تنظیم محیط زیست Setting up the Environment

  • طرح کلی دوره و پیش نیازها Course Outline and Prerequisites

  • جمع بندی سریع: جریان جرقه ای ساختار یافته Quick Recap: Spark Structured Streaming

  • سناریو Walkthrough Scenario Walkthrough

  • پیکربندی Azure Event Hub ها به عنوان منبع Configuring Azure Event Hubs as Source

  • برنامه نمونه را برای ارسال رویدادهای تاکسی NYC راه اندازی کنید Setup Sample App to Send NYC Taxi Events

  • خلاصه Summary

ساخت خط لوله جریان Building Streaming Pipeline

  • استخراج و پردازش داده های منبع Extracting and Processing Source Data

  • اعمال تحولات Applying Transformations

  • در حال بارگیری در پرونده ها Loading to Files

  • درک تضمین های بازرسی و تحویل Understanding Checkpointing and Delivery Guarantees

  • در حال بارگیری در Azure Event Hub Loading to Azure Event Hub

  • در حال بارگیری در پایگاه داده Azure SQL Loading to Azure SQL Database

  • خلاصه Summary

کار با Timestamps و ویندوز Working with Timestamps and Windows

  • زمان وقوع ، مصرف و پردازش مهر زمان Event, Ingestion, and Processing Timestamps

  • درک ویندوز Understanding Windows

  • کار با ویندوز Working With Windows

  • خلاصه Summary

مدیریت عملیات های دولتی Handling Stateful Operations

  • درک مدیریت دولت Understanding State Management

  • مدیریت داده های دیرهنگام با استفاده از علامت گذاری علامت Handling Late Data Using Watermarking

  • تکثیر داده های پخش جریانی Deduplicating Streaming Data

  • خلاصه Summary

کار با چندین جریان و مجموعه داده Working with Multiple Streams and Datasets

  • پیوستن به جریان با داده های استاتیک Joining Stream with Static Data

  • ترکیب چندین جریان Combining Multiple Streams

  • Handling State in Stream-Stream می پیوندد Handling State in Stream-Stream Joins

  • خلاصه Summary

اجرای خط لوله جریان در تولید Running Streaming Pipeline in Production

  • خط لوله جریان را پارامتر کنید Parameterize Streaming Pipeline

  • برنامه ریزی با مشاغل Databricks Scheduling with Databricks Jobs

  • مدیریت محیط با استفاده از Databricks CLI Manage Environment Using Databricks CLI

  • خلاصه Summary

نمایش نظرات

آموزش مدیریت داده های جریان داده با Azure Databricks با استفاده از Spark Streamed Streaming
جزییات دوره
2h 28m
30
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
-
از 5
دارد
دارد
دارد
Mohit Batra
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Mohit Batra Mohit Batra

موهیت یک مهندس داده ، یک مربی مجوز مایکروسافت (MCT) و یک مشاور است. موهیت دارای بیش از 15 سال تجربه گسترده در زمینه راهکارهای مقیاس بزرگ هوش تجاری ، ذخیره سازی داده ها و راه حل های بزرگ داده با شرکت هایی مانند مایکروسافت و برخی از بانک های پیشرو سرمایه گذاری است. موهیت به عنوان یک متخصص در زمینه خود ، اغلب دانش خود را در Azure ، Spark ، SQL Server و Power BI در تالارهای گفتگوی عمومی مختلف و به عنوان یک مربی شریک کرده است. محیط واقعاً عاشق تدریس است و از تولید مواد یادگیری جذاب و با کیفیت برای جلسات خود لذت می برد. در اوقات فراغت ، موهیت عاشق کتاب خواندن است ، از عکاسی و موسیقی لذت می برد.