دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش بهینه سازی اسپارک آپاچی در دیتابریکس

Optimizing Apache Spark on Databricks

Video Player is loading.

Current Time 0:00

Duration 0:00

Loaded: 0%

Stream Type LIVE

Remaining Time 0:00

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.

نمونه ویدیویی برای نمایش وجود ندارد.

توضیحات دوره: این دوره به شما می آموزد که چگونه می توانید عملکرد خوشه های Spark را در Azure Databricks با شناسایی و کاهش مسائل مختلف مانند مشکلات دریافت داده ها و گلوگاه های عملکرد بهینه کنید. موتور تجزیه و تحلیل یکپارچه Apache Spark یک چارچوب بسیار سریع و کارآمد برای پردازش کلان داده است. با این حال، ممکن است متوجه شوید که کد آپاچی اسپارک شما که روی Azure Databricks اجرا می‌شود، همچنان از مشکلات متعددی رنج می‌برد. این می تواند به دلیل مشکل در دریافت داده ها به روشی قابل اعتماد از منابع مختلف یا به دلیل مشکلات عملکردی باشد که به دلیل ورودی/خروجی دیسک، عملکرد شبکه یا گلوگاه های محاسباتی با آن مواجه می شوید. در این دوره آموزشی، Optimizing Apache Spark on Databricks، ابتدا مسائلی را که ممکن است هنگام ورود داده ها در یک مخزن متمرکز برای پردازش داده و استخراج بینش با آن مواجه شوید، بررسی و درک خواهید کرد. سپس، خواهید آموخت که چگونه Delta Lake در Azure Databricks به شما امکان می دهد داده ها را برای پردازش، اطلاعات بینش و همچنین یادگیری ماشین در جداول Delta ذخیره کنید و خواهید دید که چگونه می توانید با استفاده از Auto Loader در Databricks، مشکلات انتقال داده خود را کاهش دهید تا داده های جریانی را دریافت کنید. . در مرحله بعد، گلوگاه‌های عملکرد رایجی را که احتمالاً هنگام پردازش داده‌ها در Apache Spark با آنها مواجه می‌شوید، مسائل مربوط به سریال‌سازی، انحراف، ریختن و درهم‌رفتن را بررسی خواهید کرد. شما تکنیک هایی را برای کاهش این مشکلات یاد خواهید گرفت و خواهید دید که چگونه می توانید عملکرد کد پردازش خود را با استفاده از پارتیشن بندی دیسک، خوشه بندی مرتبه z و سطل سازی بهبود بخشید. در نهایت، یاد خواهید گرفت که چگونه می‌توانید منابع را در کلاستر با استفاده از استخرهای زمان‌بندی و زمان‌بندی منصفانه به اشتراک بگذارید و چگونه می‌توانید عملیات خواندن و نوشتن دیسک را با استفاده از کش در جداول دلتا کاهش دهید. پس از اتمام این دوره، مهارت ها و دانش بهینه سازی عملکرد در Spark را خواهید داشت که برای بهترین استفاده از Spark cluster خود لازم است.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

بررسی اجمالی دوره Course Overview

کاوش و کاهش مشکلات بلع داده ها Exploring and Mitigating Data Ingestion Problems

بررسی نسخه Version Check
پیش نیازها و رئوس مطالب دوره Prerequisites and Course Outline
دریاچه دلتا Delta Lake
جذب داده ها: تعریف، چالش ها و بهترین شیوه ها Data Ingestion: Definition, Challenges, and Best Practices
لودر خودکار برای بلع داده ها Auto Loader for Data Ingestion
نسخه ی نمایشی: ایجاد یک منبع ذخیره سازی ابری خارجی برای جذب فایل ها Demo: Creating an External Cloud Storage Source for Ingestion of Files
نسخه ی نمایشی: مصرف جریان داده ها در دریاچه دلتا Demo: Ingesting Streaming Data into Delta Lake
نسخه ی نمایشی: ردیابی فایل های پردازش شده با استفاده از بارگذار خودکار Demo: Tracking Processed Files using Auto Loader
نسخه ی نمایشی: مصرف داده های دسته ای در دریاچه دلتا Demo: Ingesting Batch Data into Delta Lake
نسخه ی نمایشی: مصرف داده ها در دریاچه دلتا با استفاده از SQL Demo: Ingesting Data into Delta Lake Using SQL
Databricks Data Ingestion Network Databricks Data Ingestion Network

تشخیص و کاهش مشکلات عملکرد Diagnosing and Mitigating Performance Problems

مشکلات عملکرد در Spark Performance Issues in Spark
تنگناهای عملکرد در Spark: Serialization و Skew Performance Bottlenecks in Spark: Serialization and Skew
تنگناهای عملکرد در Spark: Spill، Shuffle و Memory Performance Bottlenecks in Spark: Spill, Shuffle, and Memory
پارتیشن های حافظه و پارتیشن های دیسک Memory Partitions and Disk Partitions
نسخه ی نمایشی: پارتیشن بندی دیسک Demo: Disk Partitioning
پرش داده ها و خوشه بندی Z-order Data Skipping and Z-order Clustering
نسخه ی نمایشی: Z-ordering در یک میز دلتا کوچک Demo: Z-ordering on a Small Delta Table
نسخه ی نمایشی: Z-ordering در یک میز دلتا بزرگ Demo: Z-ordering on a Large Delta Table
Bucketing برای بهینه سازی اتصالات Bucketing to Optimize Joins
نسخه ی نمایشی: جداول سطل دار و بدون سطل Demo: Bucketed and Unbucketed Tables
نسخه ی نمایشی: پیوستن به جداول سطلی و بدون سطل Demo: Joining Bucketed and Unbucketed Tables

بهینه سازی جرقه برای عملکرد Optimizing Spark for Performance

FIFO و Fair Schedulers FIFO and Fair Schedulers
نسخه ی نمایشی: برنامه ریزی پیش فرض استخر FIFO Demo: Default Pool FIFO Scheduling
نسخه ی نمایشی: پیکربندی استخرهای مختلف برای به اشتراک گذاری منابع Demo: Configuring Different Pools to Share Resources
دلتا کش Delta Cache
نسخه ی نمایشی: پیکربندی کش دلتا در یک کلاستر Demo: Configuring the Delta Cache on a Cluster
نسخه ی نمایشی: اجرای پرس و جو بر روی داده های ذخیره شده Demo: Running Queries on Cached Data
ویژگی های جدید Apache Spark 3.0 New Features in Apache Spark 3.0
خلاصه و مطالعه بیشتر Summary and Further Study

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش بهینه سازی اسپارک آپاچی در دیتابریکس

جزییات دوره

زمان دوره: 2h 0m

تعداد ویدیو ها: 31

شرکت: Pluralsight (پلورال سایت)

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع : 16

امتیاز مرجع: 4.9 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Janani Ravi

لینک کوتاه این دوره

https://donyad.com/d/9c80

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.

دنیاد

آموزش بهینه سازی اسپارک آپاچی در دیتابریکس

Optimizing Apache Spark on Databricks

بررسی اجمالی دوره Course Overview

بررسی اجمالی دوره Course Overview

کاوش و کاهش مشکلات بلع داده ها Exploring and Mitigating Data Ingestion Problems

بررسی نسخه Version Check

پیش نیازها و رئوس مطالب دوره Prerequisites and Course Outline

دریاچه دلتا Delta Lake

جذب داده ها: تعریف، چالش ها و بهترین شیوه ها Data Ingestion: Definition, Challenges, and Best Practices

لودر خودکار برای بلع داده ها Auto Loader for Data Ingestion

نسخه ی نمایشی: ایجاد یک منبع ذخیره سازی ابری خارجی برای جذب فایل ها Demo: Creating an External Cloud Storage Source for Ingestion of Files

نسخه ی نمایشی: مصرف جریان داده ها در دریاچه دلتا Demo: Ingesting Streaming Data into Delta Lake

نسخه ی نمایشی: ردیابی فایل های پردازش شده با استفاده از بارگذار خودکار Demo: Tracking Processed Files using Auto Loader

نسخه ی نمایشی: مصرف داده های دسته ای در دریاچه دلتا Demo: Ingesting Batch Data into Delta Lake

نسخه ی نمایشی: مصرف داده ها در دریاچه دلتا با استفاده از SQL Demo: Ingesting Data into Delta Lake Using SQL

Databricks Data Ingestion Network Databricks Data Ingestion Network

تشخیص و کاهش مشکلات عملکرد Diagnosing and Mitigating Performance Problems

مشکلات عملکرد در Spark Performance Issues in Spark

تنگناهای عملکرد در Spark: Serialization و Skew Performance Bottlenecks in Spark: Serialization and Skew

تنگناهای عملکرد در Spark: Spill، Shuffle و Memory Performance Bottlenecks in Spark: Spill, Shuffle, and Memory

پارتیشن های حافظه و پارتیشن های دیسک Memory Partitions and Disk Partitions

نسخه ی نمایشی: پارتیشن بندی دیسک Demo: Disk Partitioning

پرش داده ها و خوشه بندی Z-order Data Skipping and Z-order Clustering

نسخه ی نمایشی: Z-ordering در یک میز دلتا کوچک Demo: Z-ordering on a Small Delta Table

نسخه ی نمایشی: Z-ordering در یک میز دلتا بزرگ Demo: Z-ordering on a Large Delta Table

Bucketing برای بهینه سازی اتصالات Bucketing to Optimize Joins

نسخه ی نمایشی: جداول سطل دار و بدون سطل Demo: Bucketed and Unbucketed Tables

نسخه ی نمایشی: پیوستن به جداول سطلی و بدون سطل Demo: Joining Bucketed and Unbucketed Tables

بهینه سازی جرقه برای عملکرد Optimizing Spark for Performance

FIFO و Fair Schedulers FIFO and Fair Schedulers

نسخه ی نمایشی: برنامه ریزی پیش فرض استخر FIFO Demo: Default Pool FIFO Scheduling

نسخه ی نمایشی: پیکربندی استخرهای مختلف برای به اشتراک گذاری منابع Demo: Configuring Different Pools to Share Resources

دلتا کش Delta Cache

نسخه ی نمایشی: پیکربندی کش دلتا در یک کلاستر Demo: Configuring the Delta Cache on a Cluster

نسخه ی نمایشی: اجرای پرس و جو بر روی داده های ذخیره شده Demo: Running Queries on Cached Data

ویژگی های جدید Apache Spark 3.0 New Features in Apache Spark 3.0

خلاصه و مطالعه بیشتر Summary and Further Study

نمایش نظرات

https://donyad.com/d/9c80