نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره:
این دوره به شما یاد می دهد که چگونه داده های دسته ای را با استفاده از Apache Spark در پلتفرم Azure Databricks با استفاده از پرس و جوهای انتخاب، فیلتر و تجمیع، توابع داخلی و تعریف شده توسط کاربر، تبدیل و جمع آوری داده ها و انجام پنجره سازی و پیوستن... Azure Databricks به شما این امکان را می دهد. برای کار با پردازش داده های بزرگ و پرس و جوها با استفاده از موتور تجزیه و تحلیل یکپارچه Apache Spark. Azure Databricks اجازه می دهد تا با منابع مختلف دسته ای کار کنید و تجزیه و تحلیل، تجسم و پردازش داده ها را در پلتفرم ابری Azure یکپارچه می کند. در این دوره آموزشی، Handling Batch Data with Apache Spark on Databricks، یاد خواهید گرفت که چگونه با انتخاب، فیلتر کردن، گروه بندی و سفارش کوئری هایی که از DataFrame API استفاده می کنند، تبدیل و تجمیع را روی داده های دسته ای انجام دهید. شما تفاوت بین تبدیلهای باریک و تبدیلهای گسترده را در Spark درک خواهید کرد که به شما کمک میکند بفهمید چرا برخی تبدیلها کارآمدتر از دیگران هستند. همچنین خواهید دید که چگونه می توانید همین تبدیل ها را با اجرای پرس و جوهای SQL روی داده های خود اجرا کنید. در مرحله بعد، یاد خواهید گرفت که چگونه می توانید توابع تعریف شده توسط کاربر سفارشی خود را برای پردازش داده های خود پیاده سازی کنید. شما کدی را روی نوت بوک های Azure Databricks می نویسید تا UDF های خود را تعریف و ثبت کنید و از آنها برای تبدیل داده های خود استفاده کنید. همچنین نحوه تعریف و استفاده از طعمهای مختلف UDFهای برداری شده برای پردازش دادهها را درک خواهید کرد و یاد خواهید گرفت که چگونه UDFهای برداری شده اغلب کارآمدتر از UDFهای معمولی هستند. در طول مسیر، همچنین خواهید دید که چگونه می توانید از Azure Cosmos DB به عنوان منبعی برای داده های دسته ای خود بخوانید. در نهایت، خواهید دید که چگونه می توانید داده های خود را مجدداً در حافظه تقسیم بندی کنید تا عملکرد پردازش را بهبود بخشید، از توابع پنجره برای محاسبه آمار بر روی داده های خود استفاده خواهید کرد و فریم های داده را با استفاده از عملیات union و join ترکیب خواهید کرد. پس از اتمام این دوره، مهارت ها و توانایی انجام تبدیل ها و تجمیع های پیشرفته روی داده های دسته ای، از جمله تعریف و استفاده از توابع تعریف شده توسط کاربر برای پردازش، را خواهید داشت.
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
-
بررسی اجمالی دوره
Course Overview
تبدیل داده ها با استفاده از DataFrames
Transforming Data Using DataFrames
-
بررسی نسخه
Version Check
-
پیش نیازها و رئوس مطالب دوره
Prerequisites and Course Outline
-
آپاچی اسپارک در دیتابریکس
Apache Spark on Databricks
-
RDD ها و فریم های داده
RDDs and Data Frames
-
تحولات باریک و گسترده
Narrow and Wide Transformations
-
نسخه ی نمایشی: پیکربندی فضای کاری و کلاستر
Demo: Configuring Workspace and Cluster
-
نسخه ی نمایشی: عملیات با نوشتن به هم ریخته در دیسک
Demo: Operations with Shuffled Writes to Disk
-
نسخه ی نمایشی: تحولات اساسی
Demo: Basic Transformations
-
نسخه ی نمایشی: تحولات تجمعی
Demo: Aggregation Transformations
تبدیل داده ها با استفاده از Spark SQL
Transforming Data Using Spark SQL
-
کاتالیست بهینه ساز
The Catalyst Optimizer
-
نسخه ی نمایشی: ایجاد جدول جهانی
Demo: Creating Global Table
-
نسخه ی نمایشی: اجرای پرس و جوهای SQL در Spark
Demo: Running SQL Queries in Spark
-
نسخه ی نمایشی: جایگزینی محتویات جدول و جداول پارتیشن بندی
Demo: Replacing Table Contents and Partitioning Tables
-
نسخه ی نمایشی: اجرای پرس و جوهای تعاملی در یک نوت بوک در یک کلاستر همه منظوره
Demo: Running Interactive Queries on a Notebook on an All-purpose Cluster
-
نسخه ی نمایشی: اجرای یک نوت بوک به عنوان یک کار در یک خوشه شغلی
Demo: Running a Notebook as a Job on a Job Cluster
استفاده از توابع تعریف شده توسط کاربر برای تبدیل داده ها
Applying User-defined Functions to Transform Data
-
توابع تعریف شده توسط کاربر (UDF)
User-defined Functions (UDFs)
-
UDF های برداری
Vectorized UDFs
-
نسخه ی نمایشی: بارگیری داده ها در Azure Cosmos DB
Demo: Loading Data into Azure Cosmos DB
-
نسخه ی نمایشی: خواندن داده ها از Cosmos DB در Spark
Demo: Reading Data from Cosmos DB in Spark
-
نسخه ی نمایشی: توابع تعریف شده توسط کاربر (UDF)
Demo: User-defined Functions (UDFs)
-
نسخه ی نمایشی: UDF های برداری - سری به سری
Demo: Vectorized UDFs - Series to Series
-
نسخه ی نمایشی: UDF های برداری - Iterator of Series به Iterator of Series
Demo: Vectorized UDFs - Iterator of Series to Iterator of Series
-
نسخه ی نمایشی: UDF های برداری - تکرار کننده سری های چندگانه به تکرار کننده سری
Demo: Vectorized UDFs - Iterator of Multiple Series to Iterator of Series
-
نسخه ی نمایشی: UDF های برداری - سری به اسکالر
Demo: Vectorized UDFs - Series to Scalar
پردازش داده ها با استفاده از اتصالات و توابع پنجره
Processing Data Using Joins and Window Functions
-
پارتیشن بندی
Partitioning
-
نسخه ی نمایشی: کار با پارتیشن های داده
Demo: Working with Data Partitions
-
نسخه ی نمایشی: پارتیشن بندی مجدد و ادغام داده ها
Demo: Repartitioning and Coalescing Data
-
نسخه ی نمایشی: انجام عملیات اتحادیه
Demo: Performing Union Operations
-
نسخه ی نمایشی: انجام عملیات پیوستن
Demo: Performing Join Operations
-
توابع پنجره
Window Functions
-
قاب های ردیف و فریم های محدوده
Row Frames and Range Frames
-
نسخه ی نمایشی: اعمال توابع پنجره
Demo: Applying Window Functions
-
خلاصه و مطالعه بیشتر
Summary and Further Study
نمایش نظرات