آموزش جریان ساخت یافته در آپاچی اسپارک 2

Structured Streaming in Apache Spark 2

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
توضیحات دوره: بسیاری از منابع داده در دنیای واقعی به شکل جریان در دسترس هستند. از سنسورهای خودروهای خودران گرفته تا مانیتورهای آب و هوا. Apache Spark 2 یک موتور تحلیلی قدرتمند، توزیع شده است که پشتیبانی عالی برای برنامه های کاربردی ارائه می دهد. فریم‌های داده در Spark 2.x از داده‌های بی‌نهایت پشتیبانی می‌کنند، بنابراین به طور موثر برنامه‌های دسته‌ای و جریانی را یکپارچه می‌کنند. در این دوره آموزشی، جریان ساخت یافته در آپاچی اسپارک 2، شما بر روی استفاده از API قاب داده جدولی برای کار با مجموعه داده های جریانی و نامحدود با استفاده از همان APIهایی که با داده های دسته ای محدود کار می کنند، تمرکز خواهید کرد. ابتدا، با درک نحوه عملکرد استریم ساخت یافته و اینکه چه چیزی آن را متفاوت و قدرتمندتر از برنامه های کاربردی پخش سنتی می کند، شروع می کنید. معماری اصلی استریم و بهبودهایی که در استریم ساخت یافته گنجانده شده است که به آن امکان می دهد به داده ها در زمان واقعی واکنش نشان دهد. سپس برای ارزیابی نتایج پخش جریانی و حالت‌های خروجی برای نوشتن نتایج در فایل یا صفحه، محرک‌هایی ایجاد می‌کنید. در مرحله بعد، متوجه خواهید شد که چگونه می‌توانید با مطالعه انبوه‌های زمان رویداد، توابع گروه‌بندی و پنجره‌بندی، و نحوه انجام عملیات پیوستن بین داده‌های دسته‌ای و جریانی، خطوط لوله جریانی را با استفاده از Spark ایجاد کنید. شما حتی با جریان‌های واقعی توییتر کار می‌کنید و روی هشتگ‌های پرطرفدار توییتر تحلیل می‌کنید. در نهایت، سپس خواهید دید که چگونه پردازش جریان اسپارک با سیستم ناشر-مشترک توزیع شده کافکا با جذب داده‌های توییتر از یک تولیدکننده کافکا و پردازش آن با استفاده از Spark Streaming یکپارچه می‌شود. در پایان این دوره، با استفاده از موتور تجزیه و تحلیل توزیع شده Spark و API جریان ساختاریافته سطح بالای آن، به راحتی می توانید داده های جریان را تجزیه و تحلیل کنید.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

آشنایی با API جریان سطح بالا در Spark 2.x Understanding the High Level Streaming API in Spark 2.x

  • بررسی نسخه Version Check

  • نمای کلی ماژول Module Overview

  • پیش نیازها و رئوس مطالب دوره Prerequisites and Course Outline

  • مجموعه داده های توزیع شده انعطاف پذیر (RDD) Resilient Distributed Datasets (RDDs)

  • معماری جریان و مدل پردازش جریان Streaming Architecture and the Stream Processing Model

  • پردازش جریانی با استفاده از میکرو دسته در Spark 1 Stream Processing Using Micro-batches in Spark 1

  • Spark 1 در مقابل Spark 2 Spark 1 vs. Spark 2

  • دسته به عنوان پیشوند جریان Batch as a Prefix of Stream

  • نسخه ی نمایشی: بسته های Spark، Kafka و Python را نصب و راه اندازی کنید Demo: Install and Setup Spark, Kafka, and Python Packages

  • برنامه های کاربردی پیوسته با استفاده از جریان ساخت یافته Continuous Applications Using Structured Streaming

  • محرک ها و حالت های خروجی Triggers and Output Modes

  • API های یکپارچه برای دسته ای و جریانی Unified APIs For Batch And Streaming

  • نسخه ی نمایشی: تعداد کلمات با داده های جریانی Demo: Word Count with Streaming Data

ساخت خطوط لوله جریان پیشرفته با استفاده از جریان ساختاری Building Advanced Streaming Pipelines Using Structured Streaming

  • نمای کلی ماژول Module Overview

  • نسخه ی نمایشی: حالت افزودن Demo: Append Mode

  • نسخه ی نمایشی: حالت کامل Demo: Complete Mode

  • نسخه ی نمایشی: تجمیع در داده های جریانی Demo: Aggregations on Streaming Data

  • نسخه ی نمایشی: پرس و جوهای SQL در جریان داده ها Demo: SQL Queries on Streaming Data

  • نسخه ی نمایشی: استفاده از UDF برای تقلید زمان رویداد Demo: Using a UDF to Mimic Event Time

  • نسخه ی نمایشی: گروه بندی بر روی مهر زمانی و محرک های صریح Demo: Grouping on Timestamp and Explicit Triggers

  • عملیات پنجره Stateful Stateful Window Operations

  • پنجره های غلتشی و کشویی Tumbling and Sliding Windows

  • رویداد، بلع، و زمان پردازش Event, Ingestion, and Processing Time

  • نسخه ی نمایشی: عملیات پنجره Demo: Window Operations

  • واترمارک و داده های دیرهنگام Watermarks and Late Data

  • نسخه ی نمایشی: کلیدهای توییتر و توکن های دسترسی Demo: Twitter Keys and Access Tokens

  • نسخه ی نمایشی: استفاده از Tweepy برای اتصال به جریان توییتر Demo: Using Tweepy to Connect to Twitter Streaming

  • نسخه ی نمایشی: تعداد هشتگ ها در داده های جریانی توییتر Demo: Count Hashtags in Twitter Streaming Data

  • نسخه ی نمایشی: تعداد هشتگ ها در جریان توییتر با استفاده از ویندوز Demo: Count Hashtags in a Twitter Stream Using Windows

  • نسخه ی نمایشی: پیوستن به داده های دسته ای و جریانی Demo: Joining Batch and Streaming Data

  • نسخه ی نمایشی: برای محاسبه میانگین هزینه بر اساس جنسیت عضو می شود Demo: Joins to Calculate Average Spend by Gender

  • نسخه ی نمایشی: تجمیع رتبه بندی ها بر اساس سن Demo: Aggregating Ratings by Age

  • نسخه ی نمایشی: پیوست های پنجره ای Demo: Windowed Joins

ادغام آپاچی کافکا با جریان ساخت یافته Integrating Apache Kafka with Structured Streaming

  • نمای کلی ماژول Module Overview

  • معرفی آپاچی کافکا Introducing Apache Kafka

  • نسخه ی نمایشی: تولیدکنندگان و مصرف کنندگان کافکا Demo: Kafka Producers and Consumers

  • نسخه ی نمایشی: تهیه کننده هشتگ توییت کافکا Demo: Kafka Tweet Hashtag Producer

  • نسخه ی نمایشی: ادغام اسپارک با کافکا Demo: Integrating Spark with Kafka

  • نسخه ی نمایشی: شمارش توییت های مثبت، منفی و خنثی Demo: Counting Positive, Negative, and Neutral Tweets

  • خلاصه و مطالعه بیشتر Summary and Further Study

نمایش نظرات

نظری ارسال نشده است.

آموزش جریان ساخت یافته در آپاچی اسپارک 2
خرید اشتراک و دانلود خرید تکی و دانلود | 160,000 تومان (5 روز مهلت دانلود) زمان تقریبی آماده سازی لینک دانلود این دوره آموزشی حدود 5 تا 24 ساعت می باشد.
جزییات دوره
2h 11m
41
Pluralsight (پلورال سایت) pluralsight-small
01 تیر 1397 (آخرین آپدیت رو دریافت می‌کنید، حتی اگر این تاریخ بروز نباشد.)
54
4.6 از 5
دارد
دارد
دارد
Janani Ravi

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.

Pluralsight (پلورال سایت)

Pluralsight یکی از پرطرفدارترین پلتفرم‌های آموزش آنلاین است که به میلیون‌ها کاربر در سراسر جهان کمک می‌کند تا مهارت‌های خود را توسعه دهند و به روز رسانی کنند. این پلتفرم دوره‌های آموزشی در زمینه‌های فناوری اطلاعات، توسعه نرم‌افزار، طراحی وب، مدیریت پروژه، و موضوعات مختلف دیگر را ارائه می‌دهد.

یکی از ویژگی‌های برجسته Pluralsight، محتوای بروز و با کیفیت آموزشی آن است. این پلتفرم با همکاری با توسعه‌دهندگان و کارشناسان معتبر، دوره‌هایی را ارائه می‌دهد که با توجه به تغییرات روزافزون در صنعت فناوری، کاربران را در جریان آخرین مفاهیم و تکنولوژی‌ها نگه می‌دارد. این امر به کاربران این اطمینان را می‌دهد که دوره‌هایی که در Pluralsight می‌پذیرند، با جدیدترین دانش‌ها و تجارب به روز شده‌اند.