آموزش مدیریت داده های دسته ای با Apache Spark در Databricks

Handling Batch Data with Apache Spark on Databricks

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره: این دوره به شما یاد می دهد که چگونه داده های دسته ای را با استفاده از Apache Spark در پلتفرم Azure Databricks با استفاده از پرس و جوهای انتخاب، فیلتر و تجمیع، توابع داخلی و تعریف شده توسط کاربر، تبدیل و جمع آوری داده ها و انجام پنجره سازی و پیوستن... Azure Databricks به شما این امکان را می دهد. برای کار با پردازش داده های بزرگ و پرس و جوها با استفاده از موتور تجزیه و تحلیل یکپارچه Apache Spark. Azure Databricks اجازه می دهد تا با منابع مختلف دسته ای کار کنید و تجزیه و تحلیل، تجسم و پردازش داده ها را در پلتفرم ابری Azure یکپارچه می کند. در این دوره آموزشی، Handling Batch Data with Apache Spark on Databricks، یاد خواهید گرفت که چگونه با انتخاب، فیلتر کردن، گروه بندی و سفارش کوئری هایی که از DataFrame API استفاده می کنند، تبدیل و تجمیع را روی داده های دسته ای انجام دهید. شما تفاوت بین تبدیل‌های باریک و تبدیل‌های گسترده را در Spark درک خواهید کرد که به شما کمک می‌کند بفهمید چرا برخی تبدیل‌ها کارآمدتر از دیگران هستند. همچنین خواهید دید که چگونه می توانید همین تبدیل ها را با اجرای پرس و جوهای SQL روی داده های خود اجرا کنید. در مرحله بعد، یاد خواهید گرفت که چگونه می توانید توابع تعریف شده توسط کاربر سفارشی خود را برای پردازش داده های خود پیاده سازی کنید. شما کدی را روی نوت بوک های Azure Databricks می نویسید تا UDF های خود را تعریف و ثبت کنید و از آنها برای تبدیل داده های خود استفاده کنید. همچنین نحوه تعریف و استفاده از طعم‌های مختلف UDF‌های برداری شده برای پردازش داده‌ها را درک خواهید کرد و یاد خواهید گرفت که چگونه UDF‌های برداری شده اغلب کارآمدتر از UDF‌های معمولی هستند. در طول مسیر، همچنین خواهید دید که چگونه می توانید از Azure Cosmos DB به عنوان منبعی برای داده های دسته ای خود بخوانید. در نهایت، خواهید دید که چگونه می توانید داده های خود را مجدداً در حافظه تقسیم بندی کنید تا عملکرد پردازش را بهبود بخشید، از توابع پنجره برای محاسبه آمار بر روی داده های خود استفاده خواهید کرد و فریم های داده را با استفاده از عملیات union و join ترکیب خواهید کرد. پس از اتمام این دوره، مهارت ها و توانایی انجام تبدیل ها و تجمیع های پیشرفته روی داده های دسته ای، از جمله تعریف و استفاده از توابع تعریف شده توسط کاربر برای پردازش، را خواهید داشت.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

تبدیل داده ها با استفاده از DataFrames Transforming Data Using DataFrames

  • بررسی نسخه Version Check

  • پیش نیازها و رئوس مطالب دوره Prerequisites and Course Outline

  • آپاچی اسپارک در دیتابریکس Apache Spark on Databricks

  • RDD ها و فریم های داده RDDs and Data Frames

  • تحولات باریک و گسترده Narrow and Wide Transformations

  • نسخه ی نمایشی: پیکربندی فضای کاری و کلاستر Demo: Configuring Workspace and Cluster

  • نسخه ی نمایشی: عملیات با نوشتن به هم ریخته در دیسک Demo: Operations with Shuffled Writes to Disk

  • نسخه ی نمایشی: تحولات اساسی Demo: Basic Transformations

  • نسخه ی نمایشی: تحولات تجمعی Demo: Aggregation Transformations

تبدیل داده ها با استفاده از Spark SQL Transforming Data Using Spark SQL

  • کاتالیست بهینه ساز The Catalyst Optimizer

  • نسخه ی نمایشی: ایجاد جدول جهانی Demo: Creating Global Table

  • نسخه ی نمایشی: اجرای پرس و جوهای SQL در Spark Demo: Running SQL Queries in Spark

  • نسخه ی نمایشی: جایگزینی محتویات جدول و جداول پارتیشن بندی Demo: Replacing Table Contents and Partitioning Tables

  • نسخه ی نمایشی: اجرای پرس و جوهای تعاملی در یک نوت بوک در یک کلاستر همه منظوره Demo: Running Interactive Queries on a Notebook on an All-purpose Cluster

  • نسخه ی نمایشی: اجرای یک نوت بوک به عنوان یک کار در یک خوشه شغلی Demo: Running a Notebook as a Job on a Job Cluster

استفاده از توابع تعریف شده توسط کاربر برای تبدیل داده ها Applying User-defined Functions to Transform Data

  • توابع تعریف شده توسط کاربر (UDF) User-defined Functions (UDFs)

  • UDF های برداری Vectorized UDFs

  • نسخه ی نمایشی: بارگیری داده ها در Azure Cosmos DB Demo: Loading Data into Azure Cosmos DB

  • نسخه ی نمایشی: خواندن داده ها از Cosmos DB در Spark Demo: Reading Data from Cosmos DB in Spark

  • نسخه ی نمایشی: توابع تعریف شده توسط کاربر (UDF) Demo: User-defined Functions (UDFs)

  • نسخه ی نمایشی: UDF های برداری - سری به سری Demo: Vectorized UDFs - Series to Series

  • نسخه ی نمایشی: UDF های برداری - Iterator of Series به Iterator of Series Demo: Vectorized UDFs - Iterator of Series to Iterator of Series

  • نسخه ی نمایشی: UDF های برداری - تکرار کننده سری های چندگانه به تکرار کننده سری Demo: Vectorized UDFs - Iterator of Multiple Series to Iterator of Series

  • نسخه ی نمایشی: UDF های برداری - سری به اسکالر Demo: Vectorized UDFs - Series to Scalar

پردازش داده ها با استفاده از اتصالات و توابع پنجره Processing Data Using Joins and Window Functions

  • پارتیشن بندی Partitioning

  • نسخه ی نمایشی: کار با پارتیشن های داده Demo: Working with Data Partitions

  • نسخه ی نمایشی: پارتیشن بندی مجدد و ادغام داده ها Demo: Repartitioning and Coalescing Data

  • نسخه ی نمایشی: انجام عملیات اتحادیه Demo: Performing Union Operations

  • نسخه ی نمایشی: انجام عملیات پیوستن Demo: Performing Join Operations

  • توابع پنجره Window Functions

  • قاب های ردیف و فریم های محدوده Row Frames and Range Frames

  • نسخه ی نمایشی: اعمال توابع پنجره Demo: Applying Window Functions

  • خلاصه و مطالعه بیشتر Summary and Further Study

نمایش نظرات

آموزش مدیریت داده های دسته ای با Apache Spark در Databricks
جزییات دوره
2h 22m
34
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
10
4.6 از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.