لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش مدیریت داده های دسته ای با Apache Spark در Databricks
Handling Batch Data with Apache Spark on Databricks
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
این دوره به شما یاد می دهد که چگونه داده های دسته ای را با استفاده از Apache Spark در پلتفرم Azure Databricks با استفاده از پرس و جوهای انتخاب، فیلتر و تجمیع، توابع داخلی و تعریف شده توسط کاربر، تبدیل و جمع آوری داده ها و انجام پنجره سازی و پیوستن... Azure Databricks به شما این امکان را می دهد. برای کار با پردازش داده های بزرگ و پرس و جوها با استفاده از موتور تجزیه و تحلیل یکپارچه Apache Spark. Azure Databricks اجازه می دهد تا با منابع دسته ای مختلف کار کنید و تجزیه و تحلیل، تجسم و پردازش داده ها را در پلتفرم ابری Azure یکپارچه می کند. در این دوره آموزشی، Handling Batch Data with Apache Spark on Databricks، یاد می گیرید که چگونه با انتخاب، فیلتر کردن، گروه بندی و سفارش کوئری هایی که از DataFrame API استفاده می کنند، تبدیل و تجمیع را روی داده های دسته ای انجام دهید. شما تفاوت بین تبدیلهای باریک و تبدیلهای گسترده را در Spark درک خواهید کرد که به شما کمک میکند بفهمید چرا برخی تبدیلها کارآمدتر از دیگران هستند. همچنین خواهید دید که چگونه می توانید همین تبدیل ها را با اجرای پرس و جوهای SQL روی داده های خود اجرا کنید. در مرحله بعد، یاد خواهید گرفت که چگونه می توانید توابع تعریف شده توسط کاربر سفارشی خود را برای پردازش داده های خود پیاده سازی کنید. شما کدی را روی نوت بوک های Azure Databricks می نویسید تا UDF های خود را تعریف و ثبت کنید و از آنها برای تبدیل داده های خود استفاده کنید. همچنین نحوه تعریف و استفاده از طعم های مختلف UDF های برداری شده برای پردازش داده ها را خواهید فهمید و یاد خواهید گرفت که چگونه UDF های برداری شده اغلب کارآمدتر از UDF های معمولی هستند. در طول مسیر، همچنین خواهید دید که چگونه می توانید از Azure Cosmos DB به عنوان منبعی برای داده های دسته ای خود بخوانید. در نهایت، خواهید دید که چگونه می توانید داده های خود را در حافظه مجدداً تقسیم بندی کنید تا عملکرد پردازش را بهبود ببخشید، از توابع پنجره برای محاسبه آمار بر روی داده های خود استفاده خواهید کرد و فریم های داده را با استفاده از عملیات union و join ترکیب خواهید کرد. پس از اتمام این دوره، مهارت ها و توانایی انجام تبدیل ها و تجمیع های پیشرفته روی داده های دسته ای، از جمله تعریف و استفاده از توابع تعریف شده توسط کاربر برای پردازش، را خواهید داشت.
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
بررسی اجمالی دوره
Course Overview
تبدیل داده ها با استفاده از DataFrames
Transforming Data Using DataFrames
پیش نیازها و رئوس مطالب دوره
Prerequisites and Course Outline
آپاچی اسپارک در دیتابریکس
Apache Spark on Databricks
RDD ها و قاب های داده
RDDs and Data Frames
تحولات باریک و گسترده
Narrow and Wide Transformations
نسخه ی نمایشی: پیکربندی فضای کاری و کلاستر
Demo: Configuring Workspace and Cluster
نسخه ی نمایشی: عملیات با نوشتن به هم ریخته در دیسک
Demo: Operations with Shuffled Writes to Disk
تبدیل داده ها با استفاده از Spark SQL
Transforming Data Using Spark SQL
کاتالیست بهینه ساز
The Catalyst Optimizer
نسخه ی نمایشی: ایجاد جدول جهانی
Demo: Creating Global Table
نسخه ی نمایشی: اجرای پرس و جوهای SQL در Spark
Demo: Running SQL Queries in Spark
نسخه ی نمایشی: جایگزینی محتویات جدول و پارتیشن بندی جداول
Demo: Replacing Table Contents and Partitioning Tables
نسخه ی نمایشی: اجرای پرس و جوهای تعاملی در یک نوت بوک در یک کلاستر همه منظوره
Demo: Running Interactive Queries on a Notebook on an All-purpose Cluster
نسخه ی نمایشی: اجرای یک نوت بوک به عنوان یک کار در یک خوشه شغلی
Demo: Running a Notebook as a Job on a Job Cluster
استفاده از توابع تعریف شده توسط کاربر برای تبدیل داده ها
Applying User-defined Functions to Transform Data
توابع تعریف شده توسط کاربر (UDF)
User-defined Functions (UDFs)
UDF های برداری شده
Vectorized UDFs
نسخه ی نمایشی: بارگیری داده ها در Azure Cosmos DB
Demo: Loading Data into Azure Cosmos DB
نسخه ی نمایشی: خواندن داده ها از Cosmos DB در Spark
Demo: Reading Data from Cosmos DB in Spark
نسخه ی نمایشی: توابع تعریف شده توسط کاربر (UDF)
Demo: User-defined Functions (UDFs)
نسخه ی نمایشی: UDF های برداری - سری به سری
Demo: Vectorized UDFs - Series to Series
نسخه ی نمایشی: UDF های بردار - Iterator of Series به Iterator of Series
Demo: Vectorized UDFs - Iterator of Series to Iterator of Series
نسخه ی نمایشی: UDF های بردار - Iterator of Multiple Series به Iterator of Series
Demo: Vectorized UDFs - Iterator of Multiple Series to Iterator of Series
نسخه ی نمایشی: UDF های برداری - سری به اسکالر
Demo: Vectorized UDFs - Series to Scalar
پردازش داده ها با استفاده از اتصالات و توابع پنجره
Processing Data Using Joins and Window Functions
پارتیشن بندی
Partitioning
نسخه ی نمایشی: کار با پارتیشن های داده
Demo: Working with Data Partitions
نسخه ی نمایشی: پارتیشن بندی مجدد و ادغام داده ها
Demo: Repartitioning and Coalescing Data
نسخه ی نمایشی: انجام عملیات اتحادیه
Demo: Performing Union Operations
نسخه ی نمایشی: انجام عملیات پیوستن
Demo: Performing Join Operations
توابع پنجره
Window Functions
قاب های ردیف و فریم های محدوده
Row Frames and Range Frames
نسخه ی نمایشی: اعمال توابع پنجره
Demo: Applying Window Functions
Janani Ravi یک معمار و مهندس داده خبره Google cloud است.
جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.
نمایش نظرات