آموزش Apache Spark 3 Fundamentals

Apache Spark 3 Fundamentals

در حال بارگزاری نمونه ویدیو، لطفا صبر کنید...
Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected
      نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
      نمونه ویدیوها:
      • در حال بارگزاری، لطفا صبر کنید...
      توضیحات دوره: اصول Apache Spark 3 را بیاموزید: پردازش داده ها، راه اندازی محیط، استفاده از RDD و DataFrames، بهینه سازی برنامه ها، ایجاد خطوط لوله با Databricks و Azure Synapse. در اینجا در این دوره با اکوسیستم Spark آشنا شوید. Apache Spark یکی از پرکاربردترین موتورهای تحلیلی است. پردازش داده های توزیع شده را انجام می دهد و می تواند پتابایت داده را مدیریت کند. Spark می‌تواند با انواع فرمت‌های داده کار کند، داده‌ها را با سرعت بالا پردازش کند و موارد استفاده چندگانه را پشتیبانی کند. نسخه 3 اسپارک مجموعه ای کاملاً جدید از ویژگی ها و بهینه سازی ها را به ارمغان می آورد. در این دوره آموزشی، Apache Spark 3 Fundamentals، می آموزید که چگونه می توان از Apache Spark برای پردازش حجم زیادی از داده ها، داده های دسته ای یا جریانی، و در مورد اکوسیستم رو به رشد Spark استفاده کرد. ابتدا، خواهید آموخت که آپاچی اسپارک چیست، معماری آن و مدل اجرای آن چیست. سپس نحوه تنظیم محیط Spark را خواهید دید. در مرحله بعد، با دو Spark API - RDD و DataFrames - آشنا خواهید شد و نحوه استفاده از آنها برای استخراج، تجزیه و تحلیل، پاکسازی و تبدیل داده های دسته ای را خواهید دید. سپس، تکنیک‌های مختلف برای بهینه‌سازی برنامه‌های Spark خود و همچنین ویژگی‌های بهینه‌سازی جدید Apache Spark 3 را یاد خواهید گرفت. پس از آن، نحوه ذخیره مطمئن داده‌ها در یک Data Lake با استفاده از قالب Delta Lake و ساخت جریان‌سازی را خواهید دید. خطوط لوله با اسپارک در نهایت، نحوه استفاده از Spark را در سرویس های ابری مانند Databricks و Azure Synapse Analytics خواهید دید. در پایان این دوره، دانش و مهارت لازم برای کار با Apache Spark و استفاده از قابلیت ها و اکوسیستم آن برای ایجاد خطوط لوله پردازش داده در مقیاس بزرگ را خواهید داشت. بنابراین، بیایید شروع کنیم!

      سرفصل ها و درس ها

      بررسی اجمالی دوره Course Overview

      • تریلر دوره Course Trailer

      شروع کار با آپاچی اسپارک Getting Started with Apache Spark

      • مقدمه و رئوس مطالب دوره Introduction and Course Outline

      • بررسی نسخه Version Check

      • نیاز به اسپارک آپاچی Need for Apache Spark

      • درک معماری اسپارک و اکوسیستم Understanding Spark Architecture and Ecosystem

      • چگونه اعدام در اسپارک اتفاق می افتد؟ How Execution Happens in Spark?

      • Spark API - RDD ها، DataFrames و Datasets Spark APIs – RDDs, DataFrames and Datasets

      • خلاصه Summary

      راه اندازی Spark Environment Setting up Spark Environment

      • نمای کلی ماژول Module Overview

      • درک محیط های اسپارک Understanding Spark Environments

      • نصب اسپارک Installing Spark

      • نظارت بر Spark با رابط کاربری وب Monitoring Spark with Web UI

      • گزینه 1: اجرای Spark در خط فرمان Option 1: Running Spark in Command Line

      • گزینه 2: اجرای اسپارک با نوت بوک های Jupyter Option 2: Running Spark with Jupyter Notebooks

      • گزینه 3: ایجاد پروژه با PyCharm IDE Option 3: Creating Project with PyCharm IDE

      • گزینه 4: اجرای مشاغل با Spark Submit Option 4: Running Jobs with Spark Submit

      • راه اندازی خوشه چند گره Setting Up Multi-Node Cluster

      • خلاصه Summary

      کار با RDDs - Resilient Distributed Datasets Working with RDDs - Resilient Distributed Datasets

      • نمای کلی ماژول Module Overview

      • درک RDD ها Understanding RDDs

      • ایجاد RDD Creating RDDs

      • کار با جفت RDD Working with Pair RDDs

      • اعمال عملیات بر روی RDD ها Applying Operations on RDDs

      • استفاده از تبدیل های باریک Using Narrow Transformations

      • تحولات گسترده و درهم ریختن داده ها Wide Transformations and Data Shuffling

      • مفاهیم کاربردی Spark: مشاغل، مراحل و وظایف Spark Application Concepts: Jobs, Stages and Tasks

      • خلاصه Summary

      تمیز کردن و تبدیل داده ها با DataFrames Cleaning and Transforming Data with DataFrames

      • نمای کلی ماژول Module Overview

      • آشنایی با DataFrames Understanding DataFrames

      • ایجاد DataFrames Creating DataFrames

      • اعمال طرحواره ها Applying Schemas

      • تجزیه و تحلیل و پاکسازی داده ها Analyzing and Cleaning Data

      • اعمال تحولات Applying Transformations

      • مدیریت داده های فاسد Handling Corrupt Data

      • ذخیره داده های پردازش شده در فایل ها Saving Processed Data to Files

      • خلاصه Summary

      کار با Spark SQL، UDF و عملیات Common DataFrame Working with Spark SQL, UDFs, and Common DataFrame Operations

      • نمای کلی ماژول Module Overview

      • اجرای پرس و جوهای SQL روی DataFrames Running SQL Queries on DataFrames

      • کار با Spark Tables Working with Spark Tables

      • کار با توابع تعریف شده توسط کاربر (UDF) Working with User Defined Functions (UDFs)

      • انجام عملیات بر روی مجموعه داده های متعدد Performing Operations on Multiple Datasets

      • انجام عملیات پنجره Performing Window Operations

      • خلاصه Summary

      انجام بهینه سازی ها در Spark Performing Optimizations in Spark

      • نمای کلی ماژول Module Overview

      • کار با پارتیشن اسپارک Working with Spark Partitions

      • تغییر پارتیشن های DataFrame Changing DataFrame Partitions

      • مدیریت حافظه Memory Management

      • داده های ماندگار Persisting Data

      • استراتژی های پیوستن اسپارک و پیوستن به پخش Spark Join Strategies and Broadcast Joins

      • بهینه سازی مرتب سازی ترکیبی با Bucketing بپیوندید Optimizing Shuffle Sort Join with Bucketing

      • تخصیص دینامیک منابع Dynamic Resource Allocation

      • تخصیص منابع با استفاده از برنامه ریزی منصفانه Resource Allocation Using Fair Scheduling

      • خلاصه Summary

      ویژگی های Apache Spark 3 Features in Apache Spark 3

      • مقدمه ای بر آپاچی اسپارک 3 Introduction to Apache Spark 3

      • اجرای پرس و جو تطبیقی: ادغام پویا Adaptive Query Execution: Dynamic Coalescing

      • اجرای پرس و جو تطبیقی: پیوستن پویا Adaptive Query Execution: Dynamic Join

      • اجرای پرس و جو تطبیقی: مدیریت انحراف Adaptive Query Execution: Handling Skew

      • هرس پارتیشن دینامیک Dynamic Partition Pruning

      • خلاصه Summary

      ساخت دریاچه داده های قابل اعتماد با اسپارک و دریاچه دلتا Building Reliable Data Lake with Spark and Delta Lake

      • نمای کلی ماژول Module Overview

      • نیاز به دریاچه دلتا با اسپارک Need for Delta Lake with Spark

      • دریاچه دلتا چگونه کار می کند؟ How Delta Lake Works?

      • ضمانت اسید در دریاچه دلتا ACID Guarantees on Delta Lake

      • ایجاد جداول دلتا Creating Delta Tables

      • درج داده ها به جدول دلتا Inserting Data to Delta Table

      • انجام عملیات DML Performing DML Operations

      • اعمال محدودیت های جدول Applying Table Constraints

      • دسترسی به داده ها با سفر در زمان Accessing Data with Time Travel

      • خلاصه Summary

      مدیریت داده های جریانی با جریان ساختاری Spark Handling Streaming Data with Spark Structured Streaming

      • نمای کلی ماژول Module Overview

      • درک جریان در Spark Understanding Streaming in Spark

      • مدل پردازش جریان ساختاریافته Structured Streaming Processing Model

      • استخراج داده های جریانی از منبع Extracting Streaming Data from Source

      • تبدیل و بارگذاری داده ها Transforming and Loading Data

      • خلاصه Summary

      کار با Spark در Cloud Working with Spark in Cloud

      • نمای کلی ماژول Module Overview

      • استفاده از Spark در Databricks Using Spark in Databricks

      • استفاده از Spark در Azure Synapse Analytics Using Spark in Azure Synapse Analytics

      • خلاصه Summary

      نمایش نظرات

      نظری ارسال نشده است.

      آموزش Apache Spark 3 Fundamentals
      خرید اشتراک و دانلودخرید تکی و دانلود | 210,000 تومان (5 روز مهلت دانلود ) زمان تقریبی آماده سازی لینک دانلود این دوره آموزشی حدود 2 تا 14 ساعت می باشد.
      جزییات دوره
      6h 19m
      79
      Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
      (آخرین آپدیت)
      از 5
      دارد
      دارد
      دارد
      Mohit Batra
      جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

      Google Chrome Browser

      Internet Download Manager

      Pot Player

      Winrar

      Mohit Batra Mohit Batra

      موهیت یک مهندس داده ، یک مربی مجوز مایکروسافت (MCT) و یک مشاور است. موهیت دارای بیش از 15 سال تجربه گسترده در زمینه راهکارهای مقیاس بزرگ هوش تجاری ، ذخیره سازی داده ها و راه حل های بزرگ داده با شرکت هایی مانند مایکروسافت و برخی از بانک های پیشرو سرمایه گذاری است. موهیت به عنوان یک متخصص در زمینه خود ، اغلب دانش خود را در Azure ، Spark ، SQL Server و Power BI در تالارهای گفتگوی عمومی مختلف و به عنوان یک مربی شریک کرده است. محیط واقعاً عاشق تدریس است و از تولید مواد یادگیری جذاب و با کیفیت برای جلسات خود لذت می برد. در اوقات فراغت ، موهیت عاشق کتاب خواندن است ، از عکاسی و موسیقی لذت می برد.