نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره:
بسیاری از داده های دنیای واقعی در جریان ها موجود است. از سنسورهای اتومبیل خودران تا مانیتورهای هوا. Apache Spark 2 یک موتور تحلیلی قدرتمند با پشتیبانی درجه یک از عملیات جریان با استفاده از میکرو دسته ای و پردازش مداوم است. جریان سازه ای در Spark 2 یک مدل واحد است که دسته را به عنوان پیشوند جریان در نظر می گیرد. این به Spark اجازه می دهد همان عملیات داده های دسته ای را بر روی داده های جریان انجام دهد و Spark از جزئیات مربوط به افزایش عملیات دسته ای برای کار در جریان ها مراقبت می کند. در این دوره ، با تصور کردن مدل پردازش برای Apache Spark Streamed Streaming ، از DataFrame API و همچنین Spark SQL برای اجرای نمایش داده ها در منابع جریان و نوشتن نتایج در غرق های داده استفاده خواهید کرد. ابتدا ، شما با جریان DataFrames در Spark 2 آشنا می شوید و می فهمید که جریان سازه ای در Spark 2 با Spark Streaming موجود در نسخه های قبلی Spark چه تفاوتی دارد. همچنین از عملکرد معماری Spark و نقش رانندگان ، کارگران ، مجریان و وظایف درک بالایی خواهید داشت. در مرحله بعدی ، شما پرس و جوهای مربوط به جریان داده ها را از یک منبع سوکت و همچنین یک منبع سیستم فایل اجرا خواهید کرد. شما با استفاده از فریم داده ها ، داده های اصلی را روی جریان داده ها انجام خواهید داد و داده های خود را به عنوان نمای موقت برای اجرای نمایش داده های SQL در جریان های ورودی ثبت می کنید. برای نوشتن داده ها در غرق ها ، حالت های پیوست ، تکمیل و به روزرسانی را کاوش خواهید کرد. سپس خواهید فهمید که برنامه ریزی و چک کردن در Spark چگونه کار می کند و تفاوت بین حالت اجرای میکرو دسته و حالت پردازش مداوم آزمایشی جدید را که Spark ارائه می دهد ، کاوش خواهید کرد. سرانجام ، شما در مورد بهینه سازی موتور Tungsten بحث خواهید کرد که Spark 2 را بسیار سریعتر از Spark 1 می کند و در مورد بهینه سازی Catalyst که با س quالات SQL کار می کند ، مراحل بهینه سازی را بحث خواهید کرد. در پایان این دوره ، شما می توانید درخواستهای جریان را بر روی داده های ورودی ایجاد و اجرا کنید ، این موارد را در حالت ذخیره سازی قابل اعتماد با استفاده از حالت های مختلف خروجی بنویسید و برنامه های جریان خود را برای تحمل خطا و بازیابی بررسی کنید.
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
-
بررسی اجمالی دوره
Course Overview
شروع کار با جریان ساختاری
Getting Started with Structured Streaming
-
پیش نیازها و طرح کلی دوره
Prerequisites and Course Outline
-
معرفی Apache Spark
Introducing Apache Spark
-
RDD و DataFrames
RDDs and DataFrames
-
پخش جرقه ای در مقابل جریان ساختاری
Spark Streaming vs. Structured Streaming
-
جریان ساختاری
Structured Streaming
-
Spark Architecture
Spark Architecture
-
نسخه ی نمایشی: MacOS - Spark را نصب و تنظیم کنید
Demo: MacOS - Install and Set up Spark
-
نسخه ی نمایشی: ویندوز - Spark را نصب و تنظیم کنید
Demo: Windows - Install and Set up Spark
-
نسخه ی نمایشی: پخش جریانی تعداد کلمات 1
Demo: Streaming Word Count 1
-
نسخه ی نمایشی: پخش جریانی کلمات 2
Demo: Streaming Word Count 2
-
نسخه ی نمایشی: محاسبه تجمع با استفاده از SQL
Demo: Computing Aggregations Using SQL
اجرای س Exالات پخش جریانی
Executing Streaming Queries
-
پیشوند یکپارچگی
Prefix Integrity
-
راه اندازها
Triggers
-
حالت های خروجی
Output Modes
-
نسخه ی نمایشی: پیش بینی ها و فیلتر کردن در حالت ضمیمه با استفاده از DataFrames
Demo: Projections and Filtering in Append Mode Using DataFrames
-
نسخه ی نمایشی: پیش بینی ها و فیلتر کردن در حالت ضمیمه با استفاده از SQL
Demo: Projections and Filtering in Append Mode Using SQL
-
نسخه ی نمایشی: گروه بندی و تجمیع در حالت کامل با استفاده از DataFrames
Demo: Grouping and Aggregation in Complete Mode Using DataFrames
-
نسخه ی نمایشی: گروه بندی و تجمیع در حالت کامل با استفاده از SQL
Demo: Grouping and Aggregation in Complete Mode Using SQL
-
نسخه ی نمایشی: تجمیع و گروه بندی در حالت بروزرسانی با استفاده از DataFrames
Demo: Aggregations and Grouping in Update Mode Using DataFrames
-
نسخه ی نمایشی: تجمیع و گروه بندی در حالت بروزرسانی با استفاده از SQL
Demo: Aggregation and Grouping in Update Mode Using SQL
-
استنباط طرحواره
Schema Inference
-
نسخه ی نمایشی: استنباط Adhoc Schema
Demo: Adhoc Schema Inference
درک زمانبندی و Checkpointing
Understanding Scheduling and Checkpointing
-
برنامه ریزی در جرقه
Scheduling in Spark
-
FIFO و برنامه ریزی عادلانه
FIFO and Fair Scheduling
-
RDD و تحمل خطا
RDDs and Fault Tolerance
-
معناشناسی تحمل خطا
Fault Tolerance Semantics
-
بازرسی
Checkpointing
-
نسخه ی نمایشی: بازرسی
Demo: Checkpointing
پیکربندی مدلهای پردازش
Configuring Processing Models
-
مدل های پردازش جریان
Stream Processing Models
-
پردازش میکرو دسته ای
Micro-batch Processing
-
پردازش مداوم
Continuous Processing
-
نسخه ی نمایشی: پردازش مداوم
Demo: Continuous Processing
درک برنامه ریزی پرس و جو
Understanding Query Planning
-
پروژه تنگستن
Project Tungsten
-
Catalyst Optimizer
The Catalyst Optimizer
-
متغیرهای پخش و باتری ها
Broadcast Variables and Accumulators
-
نسخه ی نمایشی: متغیرهای پخش
Demo: Broadcast Variables
-
نسخه ی نمایشی: باتری
Demo: Accumulator
-
نسخه ی نمایشی: UDF ها با استفاده از فریم های داده
Demo: UDFs Using Data Frames
-
نسخه ی نمایشی: ثبت و فراخوانی UDF در SQL
Demo: Registering and Invoking UDFs in SQL
-
خلاصه و مطالعه بیشتر
Summary and Further Study
نمایش نظرات