آموزش شروع کار با Apache Spark در Databricks

Getting Started with Apache Spark on Databricks

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: این دوره شما را با پرس و جوهای تحلیلی و پردازش داده های بزرگ با استفاده از Apache Spark در Azure Databricks آشنا می کند. شما یاد خواهید گرفت که چگونه با استفاده از Databricks Runtime با تبدیل ها، اقدامات، تجسم ها و توابع Spark کار کنید. Azure Databricks به شما امکان می دهد با پردازش داده های بزرگ و پرس و جوها با استفاده از موتور تجزیه و تحلیل یکپارچه Apache Spark کار کنید. با Azure Databricks می توانید محیط Apache Spark خود را در عرض چند دقیقه تنظیم کنید، پردازش خود را به صورت خودکار مقیاس بندی کنید، و پروژه ها را در یک فضای کاری تعاملی با یکدیگر همکاری و به اشتراک بگذارید. در این دوره آموزشی، شروع کار با Apache Spark در Databricks، اجزای موتور تجزیه و تحلیل Apache Spark را یاد می گیرید که به شما امکان می دهد با استفاده از یک API یکپارچه، داده های دسته ای و جریانی را پردازش کنید. ابتدا یاد خواهید گرفت که چگونه معماری Spark برای پردازش داده های بزرگ پیکربندی شده است، سپس خواهید آموخت که چگونه Databricks Runtime در Azure کار با Apache Spark را در پلتفرم ابری Azure بسیار آسان می کند و مفاهیم و اصطلاحات اساسی را برای فناوری های مورد استفاده در Azure Databricks. در مرحله بعد، کارها و تفاوت های ظریف Resilient Distributed Datasets که به نام RDD نیز شناخته می شوند را خواهید آموخت که ساختار داده اصلی است که برای پردازش داده های بزرگ در Apache Spark استفاده می شود. خواهید دید که RDD ها ساختارهای داده ای هستند که فریم های Spark Data بر روی آنها ساخته می شوند. شما دو نوع عملیاتی را که می‌توان بر روی فریم‌های داده انجام داد - یعنی تبدیل‌ها و اقدامات را مطالعه خواهید کرد و تفاوت بین آنها را درک خواهید کرد. همچنین خواهید آموخت که چگونه Databricks به شما اجازه می دهد تا داده های خود را با استفاده از تابع display() که از کتابخانه های بومی پایتون برای تجسم استفاده می کند، کاوش و تجسم کنید. در نهایت، شما تجربه عملی با عملیات پردازش داده های بزرگ مانند عملیات طرح ریزی، فیلتر کردن و تجمع خواهید داشت. در طول مسیر، یاد خواهید گرفت که چگونه می توانید داده ها را از یک منبع خارجی مانند Azure Cloud Storage بخوانید و چگونه می توانید از توابع داخلی در Apache Spark برای تغییر داده های خود استفاده کنید. پس از اتمام این دوره، مهارت ها و توانایی کار با تبدیل ها، تجسم ها و تجمیع های اولیه را با استفاده از Apache Spark در Azure Databricks خواهید داشت.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

مروری بر Apache Spark در Databricks Overview of Apache Spark on Databricks

  • بررسی نسخه Version Check

  • پیش نیازها و رئوس مطالب دوره Prequisites and Course Outline

  • معرفی آپاچی اسپارک Introducing Apache Spark

  • معماری جرقه Spark Architecture

  • معرفی Databricks Introducing Databricks

  • مفاهیم علم و مهندسی Databricks Databricks Science and Engineering Concepts

  • مروری بر معماری Azure Databricks Azure Databricks Architectural Overview

  • نسخه ی نمایشی: ایجاد یک فضای کاری Azure Databricks Demo: Creating an Azure Databricks Workspace

  • نسخه ی نمایشی: ارائه یک خوشه همه منظوره Demo: Provisionsing an All Purpose Cluster

دگرگونی ها، کنش ها و تجسم ها Transformations, Actions, and Visualizations

  • RDD ها و فریم های داده RDDs and Data Frames

  • Spark API Spark APIs

  • نسخه ی نمایشی: dbutils Demo: dbutils

  • نسخه ی نمایشی: تبدیل ها و اقدامات روی RDD ها Demo: Transformations and Actions on RDDs

  • نسخه ی نمایشی: تبدیل ها و اقدامات روی قاب های داده Demo: Transformations and Actions on Data Frames

  • نسخه ی نمایشی: آپلود یک مجموعه داده در DBFS با استفاده از نوت بوک Demo: Uploading a Dataset to DBFS Using Notebooks

  • نسخه ی نمایشی: عملیات انتخاب اولیه و فیلتر کردن Demo: Basic Selection and Filtering Operations

  • نسخه ی نمایشی: نوشتن فایل های CSV در DBFS Demo: Writing CSV Files out to DBFS

  • نسخه ی نمایشی: ایجاد جدول با استفاده از رابط کاربری Databricks Demo: Creating a Table Using the Databricks UI

  • نسخه ی نمایشی: تجسم داده ها با استفاده از فرمان نمایش Demo: Visualizing Data Using the Display Command

  • نسخه ی نمایشی: کاوش در تجسم های Databricks Demo: Exploring Databricks Visualizations

تغییر داده ها با استفاده از توابع Spark Modify Data Using Spark Functions

  • نسخه ی نمایشی: خواندن و تجزیه داده های JSON Demo: Reading and Parsing JSON Data

  • نسخه ی نمایشی: دسترسی به فیلدهای تودرتو و عناصر فهرست Demo: Accessing Nested Fields and List Elements

  • نسخه ی نمایشی: راه اندازی یک حساب ذخیره سازی Azure Demo: Setting up an Azure Storage Account

  • نسخه ی نمایشی: ذخیره اسرار در خزانه کلید Azure Demo: Storing Secrets in the Azure Key Vault

  • نسخه ی نمایشی: خواندن از Azure Data Storage Demo: Reading from Azure Data Storage

  • نسخه ی نمایشی: تبدیل های اولیه SQL Demo: Basic SQL Transformations

  • نسخه ی نمایشی: توابع داخلی Demo: Built-in Functions

  • خلاصه و مراحل بعدی Summary and Next Steps

نمایش نظرات

آموزش شروع کار با Apache Spark در Databricks
جزییات دوره
1h 52m
29
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
37
از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.