نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره:
این دوره به شما می آموزد که چگونه می توانید عملکرد خوشه های Spark را در Azure Databricks با شناسایی و کاهش مسائل مختلف مانند مشکلات دریافت داده ها و گلوگاه های عملکرد بهینه کنید. موتور تجزیه و تحلیل یکپارچه Apache Spark یک چارچوب بسیار سریع و کارآمد برای پردازش کلان داده است. با این حال، ممکن است متوجه شوید که کد آپاچی اسپارک شما که روی Azure Databricks اجرا میشود، همچنان از مشکلات متعددی رنج میبرد. این می تواند به دلیل مشکل در دریافت داده ها به روشی قابل اعتماد از منابع مختلف یا به دلیل مشکلات عملکردی باشد که به دلیل ورودی/خروجی دیسک، عملکرد شبکه یا گلوگاه های محاسباتی با آن مواجه می شوید. در این دوره آموزشی، Optimizing Apache Spark on Databricks، ابتدا مسائلی را که ممکن است هنگام ورود داده ها در یک مخزن متمرکز برای پردازش داده و استخراج بینش با آن مواجه شوید، بررسی و درک خواهید کرد. سپس، خواهید آموخت که چگونه Delta Lake در Azure Databricks به شما امکان می دهد داده ها را برای پردازش، اطلاعات بینش و همچنین یادگیری ماشین در جداول Delta ذخیره کنید و خواهید دید که چگونه می توانید با استفاده از Auto Loader در Databricks، مشکلات انتقال داده خود را کاهش دهید تا داده های جریانی را دریافت کنید. . در مرحله بعد، گلوگاههای عملکرد رایجی را که احتمالاً هنگام پردازش دادهها در Apache Spark با آنها مواجه میشوید، مسائل مربوط به سریالسازی، انحراف، ریختن و درهمرفتن را بررسی خواهید کرد. شما تکنیک هایی را برای کاهش این مشکلات یاد خواهید گرفت و خواهید دید که چگونه می توانید عملکرد کد پردازش خود را با استفاده از پارتیشن بندی دیسک، خوشه بندی مرتبه z و سطل سازی بهبود بخشید. در نهایت، یاد خواهید گرفت که چگونه میتوانید منابع را در کلاستر با استفاده از استخرهای زمانبندی و زمانبندی منصفانه به اشتراک بگذارید و چگونه میتوانید عملیات خواندن و نوشتن دیسک را با استفاده از کش در جداول دلتا کاهش دهید. پس از اتمام این دوره، مهارت ها و دانش بهینه سازی عملکرد در Spark را خواهید داشت که برای بهترین استفاده از Spark cluster خود لازم است.
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
-
بررسی اجمالی دوره
Course Overview
کاوش و کاهش مشکلات بلع داده ها
Exploring and Mitigating Data Ingestion Problems
-
بررسی نسخه
Version Check
-
پیش نیازها و رئوس مطالب دوره
Prerequisites and Course Outline
-
دریاچه دلتا
Delta Lake
-
جذب داده ها: تعریف، چالش ها و بهترین شیوه ها
Data Ingestion: Definition, Challenges, and Best Practices
-
لودر خودکار برای بلع داده ها
Auto Loader for Data Ingestion
-
نسخه ی نمایشی: ایجاد یک منبع ذخیره سازی ابری خارجی برای جذب فایل ها
Demo: Creating an External Cloud Storage Source for Ingestion of Files
-
نسخه ی نمایشی: مصرف جریان داده ها در دریاچه دلتا
Demo: Ingesting Streaming Data into Delta Lake
-
نسخه ی نمایشی: ردیابی فایل های پردازش شده با استفاده از بارگذار خودکار
Demo: Tracking Processed Files using Auto Loader
-
نسخه ی نمایشی: مصرف داده های دسته ای در دریاچه دلتا
Demo: Ingesting Batch Data into Delta Lake
-
نسخه ی نمایشی: مصرف داده ها در دریاچه دلتا با استفاده از SQL
Demo: Ingesting Data into Delta Lake Using SQL
-
Databricks Data Ingestion Network
Databricks Data Ingestion Network
تشخیص و کاهش مشکلات عملکرد
Diagnosing and Mitigating Performance Problems
-
مشکلات عملکرد در Spark
Performance Issues in Spark
-
تنگناهای عملکرد در Spark: Serialization و Skew
Performance Bottlenecks in Spark: Serialization and Skew
-
تنگناهای عملکرد در Spark: Spill، Shuffle و Memory
Performance Bottlenecks in Spark: Spill, Shuffle, and Memory
-
پارتیشن های حافظه و پارتیشن های دیسک
Memory Partitions and Disk Partitions
-
نسخه ی نمایشی: پارتیشن بندی دیسک
Demo: Disk Partitioning
-
پرش داده ها و خوشه بندی Z-order
Data Skipping and Z-order Clustering
-
نسخه ی نمایشی: Z-ordering در یک میز دلتا کوچک
Demo: Z-ordering on a Small Delta Table
-
نسخه ی نمایشی: Z-ordering در یک میز دلتا بزرگ
Demo: Z-ordering on a Large Delta Table
-
Bucketing برای بهینه سازی اتصالات
Bucketing to Optimize Joins
-
نسخه ی نمایشی: جداول سطل دار و بدون سطل
Demo: Bucketed and Unbucketed Tables
-
نسخه ی نمایشی: پیوستن به جداول سطلی و بدون سطل
Demo: Joining Bucketed and Unbucketed Tables
بهینه سازی جرقه برای عملکرد
Optimizing Spark for Performance
-
FIFO و Fair Schedulers
FIFO and Fair Schedulers
-
نسخه ی نمایشی: برنامه ریزی پیش فرض استخر FIFO
Demo: Default Pool FIFO Scheduling
-
نسخه ی نمایشی: پیکربندی استخرهای مختلف برای به اشتراک گذاری منابع
Demo: Configuring Different Pools to Share Resources
-
دلتا کش
Delta Cache
-
نسخه ی نمایشی: پیکربندی کش دلتا در یک کلاستر
Demo: Configuring the Delta Cache on a Cluster
-
نسخه ی نمایشی: اجرای پرس و جو بر روی داده های ذخیره شده
Demo: Running Queries on Cached Data
-
ویژگی های جدید Apache Spark 3.0
New Features in Apache Spark 3.0
-
خلاصه و مطالعه بیشتر
Summary and Further Study
نمایش نظرات