آموزش جریان ساخت یافته در آپاچی اسپارک 2

Structured Streaming in Apache Spark 2

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: بسیاری از منابع داده در دنیای واقعی به شکل جریان در دسترس هستند. از سنسورهای خودروهای خودران گرفته تا مانیتورهای آب و هوا. Apache Spark 2 یک موتور تحلیلی قدرتمند، توزیع شده است که پشتیبانی عالی برای برنامه های کاربردی ارائه می دهد. فریم‌های داده در Spark 2.x از داده‌های بی‌نهایت پشتیبانی می‌کنند، بنابراین به طور موثر برنامه‌های دسته‌ای و جریانی را یکپارچه می‌کنند. در این دوره آموزشی، جریان ساخت یافته در آپاچی اسپارک 2، شما بر روی استفاده از API قاب داده جدولی برای کار با مجموعه داده های جریانی و نامحدود با استفاده از همان APIهایی که با داده های دسته ای محدود کار می کنند، تمرکز خواهید کرد. ابتدا، با درک نحوه عملکرد استریم ساخت یافته و اینکه چه چیزی آن را متفاوت و قدرتمندتر از برنامه های کاربردی پخش سنتی می کند، شروع می کنید. معماری اصلی استریم و بهبودهایی که در استریم ساخت یافته گنجانده شده است که به آن امکان می دهد به داده ها در زمان واقعی واکنش نشان دهد. سپس برای ارزیابی نتایج پخش جریانی و حالت‌های خروجی برای نوشتن نتایج در فایل یا صفحه، محرک‌هایی ایجاد می‌کنید. در مرحله بعد، متوجه خواهید شد که چگونه می‌توانید با مطالعه انبوه‌های زمان رویداد، توابع گروه‌بندی و پنجره‌بندی، و نحوه انجام عملیات پیوستن بین داده‌های دسته‌ای و جریانی، خطوط لوله جریانی را با استفاده از Spark ایجاد کنید. شما حتی با جریان‌های واقعی توییتر کار می‌کنید و روی هشتگ‌های پرطرفدار توییتر تحلیل می‌کنید. در نهایت، سپس خواهید دید که چگونه پردازش جریان اسپارک با سیستم ناشر-مشترک توزیع شده کافکا با جذب داده‌های توییتر از یک تولیدکننده کافکا و پردازش آن با استفاده از Spark Streaming یکپارچه می‌شود. در پایان این دوره، با استفاده از موتور تجزیه و تحلیل توزیع شده Spark و API جریان ساختاریافته سطح بالای آن، به راحتی می توانید داده های جریان را تجزیه و تحلیل کنید.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

آشنایی با API جریان سطح بالا در Spark 2.x Understanding the High Level Streaming API in Spark 2.x

  • بررسی نسخه Version Check

  • نمای کلی ماژول Module Overview

  • پیش نیازها و رئوس مطالب دوره Prerequisites and Course Outline

  • مجموعه داده های توزیع شده انعطاف پذیر (RDD) Resilient Distributed Datasets (RDDs)

  • معماری جریان و مدل پردازش جریان Streaming Architecture and the Stream Processing Model

  • پردازش جریانی با استفاده از میکرو دسته در Spark 1 Stream Processing Using Micro-batches in Spark 1

  • Spark 1 در مقابل Spark 2 Spark 1 vs. Spark 2

  • دسته به عنوان پیشوند جریان Batch as a Prefix of Stream

  • نسخه ی نمایشی: بسته های Spark، Kafka و Python را نصب و راه اندازی کنید Demo: Install and Setup Spark, Kafka, and Python Packages

  • برنامه های کاربردی پیوسته با استفاده از جریان ساخت یافته Continuous Applications Using Structured Streaming

  • محرک ها و حالت های خروجی Triggers and Output Modes

  • API های یکپارچه برای دسته ای و جریانی Unified APIs For Batch And Streaming

  • نسخه ی نمایشی: تعداد کلمات با داده های جریانی Demo: Word Count with Streaming Data

ساخت خطوط لوله جریان پیشرفته با استفاده از جریان ساختاری Building Advanced Streaming Pipelines Using Structured Streaming

  • نمای کلی ماژول Module Overview

  • نسخه ی نمایشی: حالت افزودن Demo: Append Mode

  • نسخه ی نمایشی: حالت کامل Demo: Complete Mode

  • نسخه ی نمایشی: تجمیع در داده های جریانی Demo: Aggregations on Streaming Data

  • نسخه ی نمایشی: پرس و جوهای SQL در جریان داده ها Demo: SQL Queries on Streaming Data

  • نسخه ی نمایشی: استفاده از UDF برای تقلید زمان رویداد Demo: Using a UDF to Mimic Event Time

  • نسخه ی نمایشی: گروه بندی بر روی مهر زمانی و محرک های صریح Demo: Grouping on Timestamp and Explicit Triggers

  • عملیات پنجره Stateful Stateful Window Operations

  • پنجره های غلتشی و کشویی Tumbling and Sliding Windows

  • رویداد، بلع، و زمان پردازش Event, Ingestion, and Processing Time

  • نسخه ی نمایشی: عملیات پنجره Demo: Window Operations

  • واترمارک و داده های دیرهنگام Watermarks and Late Data

  • نسخه ی نمایشی: کلیدهای توییتر و توکن های دسترسی Demo: Twitter Keys and Access Tokens

  • نسخه ی نمایشی: استفاده از Tweepy برای اتصال به جریان توییتر Demo: Using Tweepy to Connect to Twitter Streaming

  • نسخه ی نمایشی: تعداد هشتگ ها در داده های جریانی توییتر Demo: Count Hashtags in Twitter Streaming Data

  • نسخه ی نمایشی: تعداد هشتگ ها در جریان توییتر با استفاده از ویندوز Demo: Count Hashtags in a Twitter Stream Using Windows

  • نسخه ی نمایشی: پیوستن به داده های دسته ای و جریانی Demo: Joining Batch and Streaming Data

  • نسخه ی نمایشی: برای محاسبه میانگین هزینه بر اساس جنسیت عضو می شود Demo: Joins to Calculate Average Spend by Gender

  • نسخه ی نمایشی: تجمیع رتبه بندی ها بر اساس سن Demo: Aggregating Ratings by Age

  • نسخه ی نمایشی: پیوست های پنجره ای Demo: Windowed Joins

ادغام آپاچی کافکا با جریان ساخت یافته Integrating Apache Kafka with Structured Streaming

  • نمای کلی ماژول Module Overview

  • معرفی آپاچی کافکا Introducing Apache Kafka

  • نسخه ی نمایشی: تولیدکنندگان و مصرف کنندگان کافکا Demo: Kafka Producers and Consumers

  • نسخه ی نمایشی: تهیه کننده هشتگ توییت کافکا Demo: Kafka Tweet Hashtag Producer

  • نسخه ی نمایشی: ادغام اسپارک با کافکا Demo: Integrating Spark with Kafka

  • نسخه ی نمایشی: شمارش توییت های مثبت، منفی و خنثی Demo: Counting Positive, Negative, and Neutral Tweets

  • خلاصه و مطالعه بیشتر Summary and Further Study

نمایش نظرات

آموزش جریان ساخت یافته در آپاچی اسپارک 2
جزییات دوره
2h 11m
41
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
54
4.6 از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.