آموزش تصور مدل پردازش برای Apache Spark Streamed Streaming

Conceptualizing the Processing Model for Apache Spark Structured Streaming

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره: بسیاری از داده های دنیای واقعی در جریان ها موجود است. از سنسورهای اتومبیل خودران تا مانیتورهای هوا. Apache Spark 2 یک موتور تحلیلی قدرتمند با پشتیبانی درجه یک از عملیات جریان با استفاده از میکرو دسته ای و پردازش مداوم است. جریان سازه ای در Spark 2 یک مدل واحد است که دسته را به عنوان پیشوند جریان در نظر می گیرد. این به Spark اجازه می دهد همان عملیات داده های دسته ای را بر روی داده های جریان انجام دهد و Spark از جزئیات مربوط به افزایش عملیات دسته ای برای کار در جریان ها مراقبت می کند. در این دوره ، با تصور کردن مدل پردازش برای Apache Spark Streamed Streaming ، از DataFrame API و همچنین Spark SQL برای اجرای نمایش داده ها در منابع جریان و نوشتن نتایج در غرق های داده استفاده خواهید کرد. ابتدا ، شما با جریان DataFrames در Spark 2 آشنا می شوید و می فهمید که جریان سازه ای در Spark 2 با Spark Streaming موجود در نسخه های قبلی Spark چه تفاوتی دارد. همچنین از عملکرد معماری Spark و نقش رانندگان ، کارگران ، مجریان و وظایف درک بالایی خواهید داشت. در مرحله بعدی ، شما پرس و جوهای مربوط به جریان داده ها را از یک منبع سوکت و همچنین یک منبع سیستم فایل اجرا خواهید کرد. شما با استفاده از فریم داده ها ، داده های اصلی را روی جریان داده ها انجام خواهید داد و داده های خود را به عنوان نمای موقت برای اجرای نمایش داده های SQL در جریان های ورودی ثبت می کنید. برای نوشتن داده ها در غرق ها ، حالت های پیوست ، تکمیل و به روزرسانی را کاوش خواهید کرد. سپس خواهید فهمید که برنامه ریزی و چک کردن در Spark چگونه کار می کند و تفاوت بین حالت اجرای میکرو دسته و حالت پردازش مداوم آزمایشی جدید را که Spark ارائه می دهد ، کاوش خواهید کرد. سرانجام ، شما در مورد بهینه سازی موتور Tungsten بحث خواهید کرد که Spark 2 را بسیار سریعتر از Spark 1 می کند و در مورد بهینه سازی Catalyst که با س quالات SQL کار می کند ، مراحل بهینه سازی را بحث خواهید کرد. در پایان این دوره ، شما می توانید درخواستهای جریان را بر روی داده های ورودی ایجاد و اجرا کنید ، این موارد را در حالت ذخیره سازی قابل اعتماد با استفاده از حالت های مختلف خروجی بنویسید و برنامه های جریان خود را برای تحمل خطا و بازیابی بررسی کنید.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

شروع کار با جریان ساختاری Getting Started with Structured Streaming

  • پیش نیازها و طرح کلی دوره Prerequisites and Course Outline

  • معرفی Apache Spark Introducing Apache Spark

  • RDD و DataFrames RDDs and DataFrames

  • پخش جرقه ای در مقابل جریان ساختاری Spark Streaming vs. Structured Streaming

  • جریان ساختاری Structured Streaming

  • Spark Architecture Spark Architecture

  • نسخه ی نمایشی: MacOS - Spark را نصب و تنظیم کنید Demo: MacOS - Install and Set up Spark

  • نسخه ی نمایشی: ویندوز - Spark را نصب و تنظیم کنید Demo: Windows - Install and Set up Spark

  • نسخه ی نمایشی: پخش جریانی تعداد کلمات 1 Demo: Streaming Word Count 1

  • نسخه ی نمایشی: پخش جریانی کلمات 2 Demo: Streaming Word Count 2

  • نسخه ی نمایشی: محاسبه تجمع با استفاده از SQL Demo: Computing Aggregations Using SQL

اجرای س Exالات پخش جریانی Executing Streaming Queries

  • پیشوند یکپارچگی Prefix Integrity

  • راه اندازها Triggers

  • حالت های خروجی Output Modes

  • نسخه ی نمایشی: پیش بینی ها و فیلتر کردن در حالت ضمیمه با استفاده از DataFrames Demo: Projections and Filtering in Append Mode Using DataFrames

  • نسخه ی نمایشی: پیش بینی ها و فیلتر کردن در حالت ضمیمه با استفاده از SQL Demo: Projections and Filtering in Append Mode Using SQL

  • نسخه ی نمایشی: گروه بندی و تجمیع در حالت کامل با استفاده از DataFrames Demo: Grouping and Aggregation in Complete Mode Using DataFrames

  • نسخه ی نمایشی: گروه بندی و تجمیع در حالت کامل با استفاده از SQL Demo: Grouping and Aggregation in Complete Mode Using SQL

  • نسخه ی نمایشی: تجمیع و گروه بندی در حالت بروزرسانی با استفاده از DataFrames Demo: Aggregations and Grouping in Update Mode Using DataFrames

  • نسخه ی نمایشی: تجمیع و گروه بندی در حالت بروزرسانی با استفاده از SQL Demo: Aggregation and Grouping in Update Mode Using SQL

  • استنباط طرحواره Schema Inference

  • نسخه ی نمایشی: استنباط Adhoc Schema Demo: Adhoc Schema Inference

درک زمانبندی و Checkpointing Understanding Scheduling and Checkpointing

  • برنامه ریزی در جرقه Scheduling in Spark

  • FIFO و برنامه ریزی عادلانه FIFO and Fair Scheduling

  • RDD و تحمل خطا RDDs and Fault Tolerance

  • معناشناسی تحمل خطا Fault Tolerance Semantics

  • بازرسی Checkpointing

  • نسخه ی نمایشی: بازرسی Demo: Checkpointing

پیکربندی مدلهای پردازش Configuring Processing Models

  • مدل های پردازش جریان Stream Processing Models

  • پردازش میکرو دسته ای Micro-batch Processing

  • پردازش مداوم Continuous Processing

  • نسخه ی نمایشی: پردازش مداوم Demo: Continuous Processing

درک برنامه ریزی پرس و جو Understanding Query Planning

  • پروژه تنگستن Project Tungsten

  • Catalyst Optimizer The Catalyst Optimizer

  • متغیرهای پخش و باتری ها Broadcast Variables and Accumulators

  • نسخه ی نمایشی: متغیرهای پخش Demo: Broadcast Variables

  • نسخه ی نمایشی: باتری Demo: Accumulator

  • نسخه ی نمایشی: UDF ها با استفاده از فریم های داده Demo: UDFs Using Data Frames

  • نسخه ی نمایشی: ثبت و فراخوانی UDF در SQL Demo: Registering and Invoking UDFs in SQL

  • خلاصه و مطالعه بیشتر Summary and Further Study

نمایش نظرات

آموزش تصور مدل پردازش برای Apache Spark Streamed Streaming
جزییات دوره
2h 56m
41
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
-
از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.