آموزش پنجره و پیوستن به عملیات در جریان داده با Apache Spark در Databricks

Windowing and Join Operations on Streaming Data with Apache Spark on Databricks

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره: این دوره به شما می‌آموزد که چگونه از پنجره‌سازی، واترمارکینگ و پیوستن به عملیات‌های جریان داده در Spark برای موارد استفاده خاص خود استفاده کنید. جریان ساختاریافته در Apache Spark با داده‌های بلادرنگ به‌عنوان جدولی برخورد می‌کند که دائماً اضافه می‌شود. در چنین مدل پردازش جریانی، بار پردازش جریان از کاربر به سیستم منتقل می‌شود و پردازش داده‌های جریانی با Spark را بسیار آسان و شهودی می‌کند. Apache Spark از طیف وسیعی از عملیات پنجره‌سازی و پیوستن به جریان داده‌ها با استفاده از زمان پردازش و زمان رویداد پشتیبانی می‌کند. در این دوره آموزشی، Windowing and Join Operations on Streaming Data with Apache Spark on Databricks، تفاوت بین عملیات بدون حالت که روی یک موجودیت جریان واحد عمل می کنند و عملیات stateful که بر روی چندین موجودیت انباشته شده در یک جریان عمل می کنند، یاد خواهید گرفت. سپس، انواع مختلف پنجره‌های پشتیبانی شده توسط Apache Spark را بررسی خواهید کرد که شامل پنجره‌های در حال چرخش، پنجره‌های کشویی و پنجره‌های سراسری است. در مرحله بعد، تفاوت‌های بین زمان رویداد، زمان جذب و زمان پردازش را درک خواهید کرد و خواهید دید که چگونه می‌توانید عملیات پنجره‌سازی را با استفاده از زمان پردازش و همچنین زمان رویداد انجام دهید. در طول مسیر، به یک خوشه HDInsight Kafka متصل خواهید شد تا رکوردهای جریان ورودی خود را بخوانید. سپس از واترمارک برای مقابله با داده های دیررس استفاده خواهید کرد و خواهید دید که چگونه می توانید از واترمارک برای محدود کردن وضعیت ذخیره آپاچی اسپارک استفاده کنید. در نهایت، شما عملیات اتصال را با استفاده از استریم ها انجام خواهید داد و انواع اتصالاتی را که Spark برای پیوستن به جریان استاتیک و پیوستن جریان به جریان پشتیبانی می کند، بررسی خواهید کرد. همچنین خواهید دید که چگونه می توانید برای خواندن سوابق به Azure Event Hubs متصل شوید. پس از اتمام این دوره، مهارت‌ها و دانش عملیات پنجره‌سازی و پیوستن به عملیات مورد نیاز برای شناسایی زمان انجام این تبدیل‌های قدرتمند و نحوه انجام آن‌ها را خواهید داشت.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

انجام عملیات پنجره سازی روی داده ها Performing Windowing Operations on Data

  • بررسی نسخه Version Check

  • پیش نیازها و رئوس مطالب دوره Prerequisites and Course Outline

  • دگرگونی های بی تابعیت و دولتی Stateless and Stateful Transformations

  • ویندوز غلتکی، کشویی و جهانی Tumbling, Sliding, and Global Windows

  • زمان رویداد، زمان مصرف و زمان پردازش Event Time, Ingestion Time, and Processing Time

  • نسخه ی نمایشی: خواندن جریان داده ها از منبع فایل Demo: Reading Streaming Data from a File Source

  • نسخه ی نمایشی: عملیات با استفاده از ویندوز جهانی Demo: Operations Using Global Windows

  • نسخه ی نمایشی: عملیات با استفاده از Windows Tumbling Demo: Operations Using Tumbling Windows

  • نسخه ی نمایشی: عملیات بیشتر با استفاده از Windows Tumbling Demo: More Operations Using Tumbling Windows

  • نسخه ی نمایشی: عملیات با استفاده از ویندوز کشویی Demo: Operations Using Sliding Windows

کاوش تجمعات با استفاده از واترمارک Exploring Aggregations Using Watermarks

  • نسخه ی نمایشی: ارائه یک خوشه کافکا HDInsight Demo: Provisioning an HDInsight Kafka Cluster

  • نسخه ی نمایشی: پیکربندی کافکا برای جلوگیری از آدرس های IP Demo: Configuring Kafka to Avertise IP Addresses

  • نسخه ی نمایشی: دسترسی به کارگزار Kafka، نام میزبان Zookeeper و آدرس های IP Demo: Accessing the Kafka Broker, Zookeeper Hostname, and IP Addresses

  • نسخه ی نمایشی: ایجاد یک موضوع کافکا و راه اندازی یک تهیه کننده Demo: Creating a Kafka Topic and Setting up a Producer

  • نسخه ی نمایشی: بررسی خوشه کافکا با خوشه Databricks Demo: Peering the Kafka Cluster with the Databricks Cluster

  • نسخه ی نمایشی: کم کردن ویندوز با استفاده از زمان رویداد Demo: Tumbling Windows Using Event Time

  • نسخه ی نمایشی: ویندوز کشویی با استفاده از زمان رویداد Demo: Sliding Windows Using Event Time

  • واترمارک و داده های دیرهنگام Watermarks and Late Data

  • پیکربندی واترمارک در Spark Configuring Watermarks in Spark

  • واترمارکینگ به حالت محدود Watermarking to Limit State

  • نسخه ی نمایشی: Azure Event Hubs به عنوان منبع جریان Demo: Azure Event Hubs as a Streaming Source

  • نسخه ی نمایشی: انتشار رویدادها در مرکز رویدادهای Azure Demo: Publishing Events to Azure Event Hubs

  • نسخه ی نمایشی: پیکربندی واترمارک در جریان ها Demo: Configuring Watermarks on Streams

انجام عملیات Join on Data Performing Join Operations on Data

  • پیوستن به جریان Streaming Joins

  • نسخه ی نمایشی: اتصالات جریانی-استاتیک: پیوستن کامل بیرونی Demo: Streaming-static Joins: Full Outer Join

  • نسخه ی نمایشی: پیوستن های جریانی-استاتیک: سایر عملیات پیوستن Demo: Streaming-static Joins: Other Join Operations

  • نسخه ی نمایشی: راه اندازی چندین منبع جریان Demo: Setting up Multiple Streaming Sources

  • نسخه ی نمایشی: پیوستن به جریان-جریان Demo: Streaming-streaming Joins

  • نسخه ی نمایشی: اتصالات داخلی با واترمارک Demo: Inner Joins with Watermarks

  • نسخه ی نمایشی: اتصالات بیرونی و نیمه چپ چپ با واترمارک Demo: Left Outer and Left Semi Joins with Watermarks

  • خلاصه و مطالعه بیشتر Summary and Further Study

نمایش نظرات

آموزش پنجره و پیوستن به عملیات در جریان داده با Apache Spark در Databricks
جزییات دوره
2h 2m
32
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.