Beginning of dialog window. Escape will cancel and close the window.
End of dialog window.
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره:
این دوره به شما می آموزد که چگونه می توانید عملکرد خوشه های Spark را در Azure Databricks با شناسایی و کاهش مسائل مختلف مانند مشکلات دریافت داده ها و گلوگاه های عملکرد بهینه کنید. موتور تجزیه و تحلیل یکپارچه Apache Spark یک چارچوب بسیار سریع و کارآمد برای پردازش کلان داده است. با این حال، ممکن است متوجه شوید که کد آپاچی اسپارک شما که روی Azure Databricks اجرا میشود، همچنان از مشکلات متعددی رنج میبرد. این می تواند به دلیل مشکل در دریافت داده ها به روشی قابل اعتماد از منابع مختلف یا به دلیل مشکلات عملکردی باشد که به دلیل ورودی/خروجی دیسک، عملکرد شبکه یا گلوگاه های محاسباتی با آن مواجه می شوید. در این دوره آموزشی، Optimizing Apache Spark on Databricks، ابتدا مسائلی را که ممکن است هنگام ورود داده ها در یک مخزن متمرکز برای پردازش داده و استخراج بینش با آن مواجه شوید، بررسی و درک خواهید کرد. سپس، خواهید آموخت که چگونه Delta Lake در Azure Databricks به شما امکان می دهد داده ها را برای پردازش، اطلاعات بینش و همچنین یادگیری ماشین در جداول Delta ذخیره کنید و خواهید دید که چگونه می توانید با استفاده از Auto Loader در Databricks، مشکلات انتقال داده خود را کاهش دهید تا داده های جریانی را دریافت کنید. . در مرحله بعد، گلوگاههای عملکرد رایجی را که احتمالاً هنگام پردازش دادهها در Apache Spark با آنها مواجه میشوید، مسائل مربوط به سریالسازی، انحراف، ریختن و درهمرفتن را بررسی خواهید کرد. شما تکنیک هایی را برای کاهش این مشکلات یاد خواهید گرفت و خواهید دید که چگونه می توانید عملکرد کد پردازش خود را با استفاده از پارتیشن بندی دیسک، خوشه بندی مرتبه z و سطل سازی بهبود بخشید. در نهایت، یاد خواهید گرفت که چگونه میتوانید منابع را در کلاستر با استفاده از استخرهای زمانبندی و زمانبندی منصفانه به اشتراک بگذارید و چگونه میتوانید عملیات خواندن و نوشتن دیسک را با استفاده از کش در جداول دلتا کاهش دهید. پس از اتمام این دوره، مهارت ها و دانش بهینه سازی عملکرد در Spark را خواهید داشت که برای بهترین استفاده از Spark cluster خود لازم است.
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
بررسی اجمالی دوره
Course Overview
کاوش و کاهش مشکلات بلع داده ها
Exploring and Mitigating Data Ingestion Problems
بررسی نسخه
Version Check
پیش نیازها و رئوس مطالب دوره
Prerequisites and Course Outline
دریاچه دلتا
Delta Lake
جذب داده ها: تعریف، چالش ها و بهترین شیوه ها
Data Ingestion: Definition, Challenges, and Best Practices
لودر خودکار برای بلع داده ها
Auto Loader for Data Ingestion
نسخه ی نمایشی: ایجاد یک منبع ذخیره سازی ابری خارجی برای جذب فایل ها
Demo: Creating an External Cloud Storage Source for Ingestion of Files
نسخه ی نمایشی: مصرف جریان داده ها در دریاچه دلتا
Demo: Ingesting Streaming Data into Delta Lake
نسخه ی نمایشی: ردیابی فایل های پردازش شده با استفاده از بارگذار خودکار
Demo: Tracking Processed Files using Auto Loader
نسخه ی نمایشی: مصرف داده های دسته ای در دریاچه دلتا
Demo: Ingesting Batch Data into Delta Lake
نسخه ی نمایشی: مصرف داده ها در دریاچه دلتا با استفاده از SQL
Demo: Ingesting Data into Delta Lake Using SQL
Databricks Data Ingestion Network
Databricks Data Ingestion Network
تشخیص و کاهش مشکلات عملکرد
Diagnosing and Mitigating Performance Problems
مشکلات عملکرد در Spark
Performance Issues in Spark
تنگناهای عملکرد در Spark: Serialization و Skew
Performance Bottlenecks in Spark: Serialization and Skew
تنگناهای عملکرد در Spark: Spill، Shuffle و Memory
Performance Bottlenecks in Spark: Spill, Shuffle, and Memory
پارتیشن های حافظه و پارتیشن های دیسک
Memory Partitions and Disk Partitions
نسخه ی نمایشی: پارتیشن بندی دیسک
Demo: Disk Partitioning
پرش داده ها و خوشه بندی Z-order
Data Skipping and Z-order Clustering
نسخه ی نمایشی: Z-ordering در یک میز دلتا کوچک
Demo: Z-ordering on a Small Delta Table
نسخه ی نمایشی: Z-ordering در یک میز دلتا بزرگ
Demo: Z-ordering on a Large Delta Table
Bucketing برای بهینه سازی اتصالات
Bucketing to Optimize Joins
نسخه ی نمایشی: جداول سطل دار و بدون سطل
Demo: Bucketed and Unbucketed Tables
نسخه ی نمایشی: پیوستن به جداول سطلی و بدون سطل
Demo: Joining Bucketed and Unbucketed Tables
بهینه سازی جرقه برای عملکرد
Optimizing Spark for Performance
FIFO و Fair Schedulers
FIFO and Fair Schedulers
نسخه ی نمایشی: برنامه ریزی پیش فرض استخر FIFO
Demo: Default Pool FIFO Scheduling
نسخه ی نمایشی: پیکربندی استخرهای مختلف برای به اشتراک گذاری منابع
Demo: Configuring Different Pools to Share Resources
دلتا کش
Delta Cache
نسخه ی نمایشی: پیکربندی کش دلتا در یک کلاستر
Demo: Configuring the Delta Cache on a Cluster
نسخه ی نمایشی: اجرای پرس و جو بر روی داده های ذخیره شده
Demo: Running Queries on Cached Data
ویژگی های جدید Apache Spark 3.0
New Features in Apache Spark 3.0
Janani Ravi یک معمار و مهندس داده خبره Google cloud است.
جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.
نمایش نظرات