آموزش پردازش داده های جریانی با Apache Spark در Databricks

Processing Streaming Data with Apache Spark on Databricks

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: این دوره به شما می آموزد که چگونه از انتزاعات Spark برای استریم داده ها استفاده کنید و با استفاده از API های جریان ساخت یافته Spark در Azure Databricks، تغییراتی را روی داده های جریانی انجام دهید. استریم ساختاری در Apache Spark داده های بلادرنگ را به عنوان جدولی در نظر می گیرد که دائماً اضافه می شود. این منجر به یک مدل پردازش جریانی می‌شود که از همان APIهای یک مدل پردازش دسته‌ای استفاده می‌کند - این بر عهده Spark است که عملیات دسته‌ای ما را برای کار بر روی جریان افزایش دهد. بار پردازش جریان از کاربر به سیستم منتقل می شود و پردازش داده های جریانی با Spark را بسیار آسان و شهودی می کند. در این دوره آموزشی، پردازش داده‌های جریانی با آپاچی اسپارک در Databricks، شما یاد می‌گیرید که داده‌ها را با استفاده از انتزاعات ارائه شده توسط جریان ساختاری Spark استریم و پردازش کنید. ابتدا، تفاوت بین پردازش دسته ای و پردازش جریانی را درک خواهید کرد و مدل های مختلفی را مشاهده خواهید کرد که می توانند برای پردازش داده های جریان استفاده شوند. همچنین ساختار و پیکربندی‌های APIهای جریان ساختاری Spark را بررسی خواهید کرد. در مرحله بعد، نحوه خواندن از منبع استریم با استفاده از Auto Loader در Azure Databricks را خواهید آموخت. Auto Loader فرآیند خواندن داده های جریانی از یک سیستم فایل را خودکار می کند و از مدیریت فایل و ردیابی فایل های پردازش شده مراقبت می کند و دریافت داده ها از منابع ذخیره سازی ابری خارجی را بسیار آسان می کند. سپس تبدیل‌ها و تجمیع‌ها را روی داده‌های جریانی انجام می‌دهید و داده‌ها را با استفاده از مدل‌های ضمیمه، تکمیل و به‌روزرسانی در فضای ذخیره‌سازی می‌نویسید. در نهایت، نحوه استفاده از انتزاعات SQL مانند در جریان های ورودی را خواهید آموخت. شما به یک منبع ذخیره سازی ابری خارجی، یک سطل Amazon S3 متصل خواهید شد و با استفاده از Auto Loader در جریان خود مطالعه خواهید کرد. سپس کوئری های SQL را برای پردازش داده های خود اجرا خواهید کرد. در طول مسیر، پردازش جریان خود را با استفاده از چک پوینت در برابر خرابی ها مقاوم می کنید و همچنین عملیات پردازش جریان خود را به عنوان یک کار در یک خوشه شغلی Databricks پیاده سازی می کنید. وقتی این دوره را به پایان رساندید، مهارت ها و دانش مربوط به جریان داده در Spark را خواهید داشت که برای پردازش و نظارت بر جریان ها و شناسایی موارد استفاده برای تبدیل داده های جریانی لازم است.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

مروری بر معماری استریمینگ در آپاچی اسپارک Overview of the Streaming Architecture in Apache Spark

  • بررسی نسخه Version Check

  • پیش نیازها و رئوس مطالب دوره Prerequisites and Course Outline

  • پردازش دسته ای در مقابل پردازش جریانی Batch Processing vs. Stream Processing

  • میکرو دسته ای و پردازش مداوم Micro-batch and Continuous Processing

  • پردازش جریان در آپاچی اسپارک Stream Processing in Apache Spark

  • کاربردهای مداوم در Spark Continuous Applications in Spark

  • نسخه ی نمایشی: خواندن داده های دسته ای و جریانی Demo: Reading Batch and Streaming Data

  • نسخه ی نمایشی: اجرای یک جستجوی جریانی ساده Demo: Running a Simple Streaming Query

  • نسخه ی نمایشی: پردازش و تجسم جریان ها Demo: Processing and Visualizing Streams

  • محرک ها Triggers

  • نسخه ی نمایشی: پیکربندی تریگرها Demo: Configuring Triggers

  • خلاصه ماژول Module Summary

اعمال تبدیل در داده های جریانی Applying Transformations on Streaming Data

  • منابع و سینک های جریان Streaming Sources and Sinks

  • لودر خودکار Auto Loader

  • نسخه ی نمایشی: بارگذار خودکار و داده های نجات یافته Demo: Auto Loader and Rescued Data

  • نسخه ی نمایشی؛ نوشتن جریان در فایل سینک Demo; Writing Streams to File Sinks

  • نسخه ی نمایشی: انجام تبدیل در جریان ها Demo: Performing Transformations on Streams

  • نسخه ی نمایشی: پردازش جریانی Demo: Stream Processing

  • حالت های خروجی Output Modes

  • نسخه ی نمایشی: حالت افزودن Demo: Append Mode

  • نسخه ی نمایشی: حالت کامل Demo: Complete Mode

  • نسخه ی نمایشی: حالت به روز رسانی Demo: Update Mode

اجرای پرس و جوهای SQL در جریان داده ها Executing SQL Queries on Streaming Data

  • نسخه ی نمایشی: اجرای پرس و جوهای SQL برای پردازش جریان ها Demo: Executing SQL Queries to Process Streams

  • نسخه ی نمایشی: ایجاد یک کاربر AWS و سطل S3 Demo: Creating an AWS User and S3 Bucket

  • نسخه ی نمایشی: نصب یک سطل S3 در DBFS Demo: Mounting an S3 Bucket to DBFS

  • نسخه ی نمایشی: لودر خودکار برای خواندن از منبع سطل S3 Demo: Auto Loader to Read from an S3 Bucket Source

  • نسخه ی نمایشی: استفاده از UDF در جریان داده ها Demo: Applying UDFs on Streaming Data

  • ایست بازرسی Checkpointing

  • نسخه ی نمایشی: ایست بازرسی Demo: Checkpointing

  • نسخه ی نمایشی: اجرای یک کار جریانی در یک کلاستر Demo: Running a Streaming Job on a Cluster

  • نسخه ی نمایشی: مشاهده نتایج کار Demo: Viewing Job Results

  • خلاصه و مطالعه بیشتر Summary and Further Study

نمایش نظرات

آموزش پردازش داده های جریانی با Apache Spark در Databricks
جزییات دوره
2h 1m
33
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
19
4.7 از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.