آموزش Apache Spark 3 Fundamentals

Apache Spark 3 Fundamentals

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: اصول Apache Spark 3 را بیاموزید: پردازش داده ها، راه اندازی محیط، استفاده از RDD و DataFrames، بهینه سازی برنامه ها، ایجاد خطوط لوله با Databricks و Azure Synapse. در اینجا در این دوره با اکوسیستم Spark آشنا شوید. Apache Spark یکی از پرکاربردترین موتورهای تحلیلی است. پردازش داده های توزیع شده را انجام می دهد و می تواند پتابایت داده را مدیریت کند. Spark می‌تواند با انواع فرمت‌های داده کار کند، داده‌ها را با سرعت بالا پردازش کند و موارد استفاده چندگانه را پشتیبانی کند. نسخه 3 اسپارک مجموعه ای کاملاً جدید از ویژگی ها و بهینه سازی ها را به ارمغان می آورد. در این دوره آموزشی، Apache Spark 3 Fundamentals، می آموزید که چگونه می توان از Apache Spark برای پردازش حجم زیادی از داده ها، داده های دسته ای یا جریانی، و در مورد اکوسیستم رو به رشد Spark استفاده کرد. ابتدا، خواهید آموخت که آپاچی اسپارک چیست، معماری آن و مدل اجرای آن چیست. سپس نحوه تنظیم محیط Spark را خواهید دید. در مرحله بعد، با دو Spark API - RDD و DataFrames - آشنا خواهید شد و نحوه استفاده از آنها برای استخراج، تجزیه و تحلیل، پاکسازی و تبدیل داده های دسته ای را خواهید دید. سپس، تکنیک‌های مختلف برای بهینه‌سازی برنامه‌های Spark خود و همچنین ویژگی‌های بهینه‌سازی جدید Apache Spark 3 را یاد خواهید گرفت. پس از آن، نحوه ذخیره مطمئن داده‌ها در یک Data Lake با استفاده از قالب Delta Lake و ساخت جریان‌سازی را خواهید دید. خطوط لوله با اسپارک در نهایت، نحوه استفاده از Spark را در سرویس های ابری مانند Databricks و Azure Synapse Analytics خواهید دید. در پایان این دوره، دانش و مهارت لازم برای کار با Apache Spark و استفاده از قابلیت ها و اکوسیستم آن برای ایجاد خطوط لوله پردازش داده در مقیاس بزرگ را خواهید داشت. بنابراین، بیایید شروع کنیم!

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • تریلر دوره Course Trailer

شروع کار با آپاچی اسپارک Getting Started with Apache Spark

  • مقدمه و رئوس مطالب دوره Introduction and Course Outline

  • بررسی نسخه Version Check

  • نیاز به اسپارک آپاچی Need for Apache Spark

  • درک معماری اسپارک و اکوسیستم Understanding Spark Architecture and Ecosystem

  • چگونه اعدام در اسپارک اتفاق می افتد؟ How Execution Happens in Spark?

  • Spark API - RDD ها، DataFrames و Datasets Spark APIs – RDDs, DataFrames and Datasets

  • خلاصه Summary

راه اندازی Spark Environment Setting up Spark Environment

  • نمای کلی ماژول Module Overview

  • درک محیط های اسپارک Understanding Spark Environments

  • نصب اسپارک Installing Spark

  • نظارت بر Spark با رابط کاربری وب Monitoring Spark with Web UI

  • گزینه 1: اجرای Spark در خط فرمان Option 1: Running Spark in Command Line

  • گزینه 2: اجرای اسپارک با نوت بوک های Jupyter Option 2: Running Spark with Jupyter Notebooks

  • گزینه 3: ایجاد پروژه با PyCharm IDE Option 3: Creating Project with PyCharm IDE

  • گزینه 4: اجرای مشاغل با Spark Submit Option 4: Running Jobs with Spark Submit

  • راه اندازی خوشه چند گره Setting Up Multi-Node Cluster

  • خلاصه Summary

کار با RDDs - Resilient Distributed Datasets Working with RDDs - Resilient Distributed Datasets

  • نمای کلی ماژول Module Overview

  • درک RDD ها Understanding RDDs

  • ایجاد RDD Creating RDDs

  • کار با جفت RDD Working with Pair RDDs

  • اعمال عملیات بر روی RDD ها Applying Operations on RDDs

  • استفاده از تبدیل های باریک Using Narrow Transformations

  • تحولات گسترده و درهم ریختن داده ها Wide Transformations and Data Shuffling

  • مفاهیم کاربردی Spark: مشاغل، مراحل و وظایف Spark Application Concepts: Jobs, Stages and Tasks

  • خلاصه Summary

تمیز کردن و تبدیل داده ها با DataFrames Cleaning and Transforming Data with DataFrames

  • نمای کلی ماژول Module Overview

  • آشنایی با DataFrames Understanding DataFrames

  • ایجاد DataFrames Creating DataFrames

  • اعمال طرحواره ها Applying Schemas

  • تجزیه و تحلیل و پاکسازی داده ها Analyzing and Cleaning Data

  • اعمال تحولات Applying Transformations

  • مدیریت داده های فاسد Handling Corrupt Data

  • ذخیره داده های پردازش شده در فایل ها Saving Processed Data to Files

  • خلاصه Summary

کار با Spark SQL، UDF و عملیات Common DataFrame Working with Spark SQL, UDFs, and Common DataFrame Operations

  • نمای کلی ماژول Module Overview

  • اجرای پرس و جوهای SQL روی DataFrames Running SQL Queries on DataFrames

  • کار با Spark Tables Working with Spark Tables

  • کار با توابع تعریف شده توسط کاربر (UDF) Working with User Defined Functions (UDFs)

  • انجام عملیات بر روی مجموعه داده های متعدد Performing Operations on Multiple Datasets

  • انجام عملیات پنجره Performing Window Operations

  • خلاصه Summary

انجام بهینه سازی ها در Spark Performing Optimizations in Spark

  • نمای کلی ماژول Module Overview

  • کار با پارتیشن اسپارک Working with Spark Partitions

  • تغییر پارتیشن های DataFrame Changing DataFrame Partitions

  • مدیریت حافظه Memory Management

  • داده های ماندگار Persisting Data

  • استراتژی های پیوستن اسپارک و پیوستن به پخش Spark Join Strategies and Broadcast Joins

  • بهینه سازی مرتب سازی ترکیبی با Bucketing بپیوندید Optimizing Shuffle Sort Join with Bucketing

  • تخصیص دینامیک منابع Dynamic Resource Allocation

  • تخصیص منابع با استفاده از برنامه ریزی منصفانه Resource Allocation Using Fair Scheduling

  • خلاصه Summary

ویژگی های Apache Spark 3 Features in Apache Spark 3

  • مقدمه ای بر آپاچی اسپارک 3 Introduction to Apache Spark 3

  • اجرای پرس و جو تطبیقی: ادغام پویا Adaptive Query Execution: Dynamic Coalescing

  • اجرای پرس و جو تطبیقی: پیوستن پویا Adaptive Query Execution: Dynamic Join

  • اجرای پرس و جو تطبیقی: مدیریت انحراف Adaptive Query Execution: Handling Skew

  • هرس پارتیشن دینامیک Dynamic Partition Pruning

  • خلاصه Summary

ساخت دریاچه داده های قابل اعتماد با اسپارک و دریاچه دلتا Building Reliable Data Lake with Spark and Delta Lake

  • نمای کلی ماژول Module Overview

  • نیاز به دریاچه دلتا با اسپارک Need for Delta Lake with Spark

  • دریاچه دلتا چگونه کار می کند؟ How Delta Lake Works?

  • ضمانت اسید در دریاچه دلتا ACID Guarantees on Delta Lake

  • ایجاد جداول دلتا Creating Delta Tables

  • درج داده ها به جدول دلتا Inserting Data to Delta Table

  • انجام عملیات DML Performing DML Operations

  • اعمال محدودیت های جدول Applying Table Constraints

  • دسترسی به داده ها با سفر در زمان Accessing Data with Time Travel

  • خلاصه Summary

مدیریت داده های جریانی با جریان ساختاری Spark Handling Streaming Data with Spark Structured Streaming

  • نمای کلی ماژول Module Overview

  • درک جریان در Spark Understanding Streaming in Spark

  • مدل پردازش جریان ساختاریافته Structured Streaming Processing Model

  • استخراج داده های جریانی از منبع Extracting Streaming Data from Source

  • تبدیل و بارگذاری داده ها Transforming and Loading Data

  • خلاصه Summary

کار با Spark در Cloud Working with Spark in Cloud

  • نمای کلی ماژول Module Overview

  • استفاده از Spark در Databricks Using Spark in Databricks

  • استفاده از Spark در Azure Synapse Analytics Using Spark in Azure Synapse Analytics

  • خلاصه Summary

نمایش نظرات

آموزش Apache Spark 3 Fundamentals
جزییات دوره
6h 19m
79
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
از 5
دارد
دارد
دارد
Mohit Batra
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Mohit Batra Mohit Batra

موهیت یک مهندس داده ، یک مربی مجوز مایکروسافت (MCT) و یک مشاور است. موهیت دارای بیش از 15 سال تجربه گسترده در زمینه راهکارهای مقیاس بزرگ هوش تجاری ، ذخیره سازی داده ها و راه حل های بزرگ داده با شرکت هایی مانند مایکروسافت و برخی از بانک های پیشرو سرمایه گذاری است. موهیت به عنوان یک متخصص در زمینه خود ، اغلب دانش خود را در Azure ، Spark ، SQL Server و Power BI در تالارهای گفتگوی عمومی مختلف و به عنوان یک مربی شریک کرده است. محیط واقعاً عاشق تدریس است و از تولید مواد یادگیری جذاب و با کیفیت برای جلسات خود لذت می برد. در اوقات فراغت ، موهیت عاشق کتاب خواندن است ، از عکاسی و موسیقی لذت می برد.