آموزش بهینه سازی اسپارک آپاچی در دیتابریکس

Optimizing Apache Spark on Databricks

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره: این دوره به شما می آموزد که چگونه می توانید عملکرد خوشه های Spark را در Azure Databricks با شناسایی و کاهش مسائل مختلف مانند مشکلات دریافت داده ها و گلوگاه های عملکرد بهینه کنید. موتور تجزیه و تحلیل یکپارچه Apache Spark یک چارچوب بسیار سریع و کارآمد برای پردازش کلان داده است. با این حال، ممکن است متوجه شوید که کد آپاچی اسپارک شما که روی Azure Databricks اجرا می‌شود، همچنان از مشکلات متعددی رنج می‌برد. این می تواند به دلیل مشکل در دریافت داده ها به روشی قابل اعتماد از منابع مختلف یا به دلیل مشکلات عملکردی باشد که به دلیل ورودی/خروجی دیسک، عملکرد شبکه یا گلوگاه های محاسباتی با آن مواجه می شوید. در این دوره آموزشی، Optimizing Apache Spark on Databricks، ابتدا مسائلی را که ممکن است هنگام ورود داده ها در یک مخزن متمرکز برای پردازش داده و استخراج بینش با آن مواجه شوید، بررسی و درک خواهید کرد. سپس، خواهید آموخت که چگونه Delta Lake در Azure Databricks به شما امکان می دهد داده ها را برای پردازش، اطلاعات بینش و همچنین یادگیری ماشین در جداول Delta ذخیره کنید و خواهید دید که چگونه می توانید با استفاده از Auto Loader در Databricks، مشکلات انتقال داده خود را کاهش دهید تا داده های جریانی را دریافت کنید. . در مرحله بعد، گلوگاه‌های عملکرد رایجی را که احتمالاً هنگام پردازش داده‌ها در Apache Spark با آنها مواجه می‌شوید، مسائل مربوط به سریال‌سازی، انحراف، ریختن و درهم‌رفتن را بررسی خواهید کرد. شما تکنیک هایی را برای کاهش این مشکلات یاد خواهید گرفت و خواهید دید که چگونه می توانید عملکرد کد پردازش خود را با استفاده از پارتیشن بندی دیسک، خوشه بندی مرتبه z و سطل سازی بهبود بخشید. در نهایت، یاد خواهید گرفت که چگونه می‌توانید منابع را در کلاستر با استفاده از استخرهای زمان‌بندی و زمان‌بندی منصفانه به اشتراک بگذارید و چگونه می‌توانید عملیات خواندن و نوشتن دیسک را با استفاده از کش در جداول دلتا کاهش دهید. پس از اتمام این دوره، مهارت ها و دانش بهینه سازی عملکرد در Spark را خواهید داشت که برای بهترین استفاده از Spark cluster خود لازم است.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

کاوش و کاهش مشکلات بلع داده ها Exploring and Mitigating Data Ingestion Problems

  • بررسی نسخه Version Check

  • پیش نیازها و رئوس مطالب دوره Prerequisites and Course Outline

  • دریاچه دلتا Delta Lake

  • جذب داده ها: تعریف، چالش ها و بهترین شیوه ها Data Ingestion: Definition, Challenges, and Best Practices

  • لودر خودکار برای بلع داده ها Auto Loader for Data Ingestion

  • نسخه ی نمایشی: ایجاد یک منبع ذخیره سازی ابری خارجی برای جذب فایل ها Demo: Creating an External Cloud Storage Source for Ingestion of Files

  • نسخه ی نمایشی: مصرف جریان داده ها در دریاچه دلتا Demo: Ingesting Streaming Data into Delta Lake

  • نسخه ی نمایشی: ردیابی فایل های پردازش شده با استفاده از بارگذار خودکار Demo: Tracking Processed Files using Auto Loader

  • نسخه ی نمایشی: مصرف داده های دسته ای در دریاچه دلتا Demo: Ingesting Batch Data into Delta Lake

  • نسخه ی نمایشی: مصرف داده ها در دریاچه دلتا با استفاده از SQL Demo: Ingesting Data into Delta Lake Using SQL

  • Databricks Data Ingestion Network Databricks Data Ingestion Network

تشخیص و کاهش مشکلات عملکرد Diagnosing and Mitigating Performance Problems

  • مشکلات عملکرد در Spark Performance Issues in Spark

  • تنگناهای عملکرد در Spark: Serialization و Skew Performance Bottlenecks in Spark: Serialization and Skew

  • تنگناهای عملکرد در Spark: Spill، Shuffle و Memory Performance Bottlenecks in Spark: Spill, Shuffle, and Memory

  • پارتیشن های حافظه و پارتیشن های دیسک Memory Partitions and Disk Partitions

  • نسخه ی نمایشی: پارتیشن بندی دیسک Demo: Disk Partitioning

  • پرش داده ها و خوشه بندی Z-order Data Skipping and Z-order Clustering

  • نسخه ی نمایشی: Z-ordering در یک میز دلتا کوچک Demo: Z-ordering on a Small Delta Table

  • نسخه ی نمایشی: Z-ordering در یک میز دلتا بزرگ Demo: Z-ordering on a Large Delta Table

  • Bucketing برای بهینه سازی اتصالات Bucketing to Optimize Joins

  • نسخه ی نمایشی: جداول سطل دار و بدون سطل Demo: Bucketed and Unbucketed Tables

  • نسخه ی نمایشی: پیوستن به جداول سطلی و بدون سطل Demo: Joining Bucketed and Unbucketed Tables

بهینه سازی جرقه برای عملکرد Optimizing Spark for Performance

  • FIFO و Fair Schedulers FIFO and Fair Schedulers

  • نسخه ی نمایشی: برنامه ریزی پیش فرض استخر FIFO Demo: Default Pool FIFO Scheduling

  • نسخه ی نمایشی: پیکربندی استخرهای مختلف برای به اشتراک گذاری منابع Demo: Configuring Different Pools to Share Resources

  • دلتا کش Delta Cache

  • نسخه ی نمایشی: پیکربندی کش دلتا در یک کلاستر Demo: Configuring the Delta Cache on a Cluster

  • نسخه ی نمایشی: اجرای پرس و جو بر روی داده های ذخیره شده Demo: Running Queries on Cached Data

  • ویژگی های جدید Apache Spark 3.0 New Features in Apache Spark 3.0

  • خلاصه و مطالعه بیشتر Summary and Further Study

نمایش نظرات

آموزش بهینه سازی اسپارک آپاچی در دیتابریکس
جزییات دوره
2h 0m
31
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
16
4.9 از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.