آموزش Azure Databricks & Spark برای مهندسان داده (PySpark/SQL)

Azure Databricks & Spark For Data Engineers (PySpark / SQL)

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: پروژه دنیای واقعی در مسابقه فرمول 1 برای مهندسان داده با استفاده از Azure Databricks، Delta Lake، Azure Data Factory [DP203] شما یاد خواهید گرفت که چگونه یک پروژه داده دنیای واقعی با استفاده از Azure Databricks و Spark Core بسازید. این دوره با استفاده از داده های دنیای واقعی از مسابقات اتومبیل رانی فرمول 1 آموزش داده شده است. شما مهارت های مهندسی داده در سطح حرفه ای را در Azure Databricks، Delta Lake، Spark Core، Azure Data Lake Gen2 و Azure Data Factory (ADF) به دست خواهید آورد. نحوه ایجاد نوت بوک، داشبوردها، کلاسترها، استخرهای کلاستر و مشاغل در Azure Databricks شما یاد خواهید گرفت که چگونه داده ها را با استفاده از PySpark در Azure Databricks تبدیل و تجزیه و تحلیل کنید. . همچنین، نحوه پیاده سازی راه حلی برای معماری Lakehouse با استفاده از دریاچه دلتا را خواهید آموخت. نحوه ایجاد خطوط لوله Azure Data Factory برای اجرای نوت بوک های Databricks را یاد خواهید گرفت. نحوه ایجاد تریگرهای Azure Data Factory برای برنامه ریزی خطوط لوله و همچنین نظارت بر آنها را خواهید آموخت. شما مهارت های مورد نیاز در مورد Azure Databricks و Data Factory را برای قبولی در آزمون گواهینامه Azure Data Engineer Associate DP203 به دست خواهید آورد، اما هدف اصلی این دوره آموزش قبولی در امتحانات نیست. نحوه اتصال به Azure Databricks از PowerBI برای ایجاد گزارش ها را یاد خواهید گرفت. لازم است دانستن اصول ابر مفید خواهد بود، اما لازم نیست اشتراک Azure مورد نیاز است، اگر ندارید، یک حساب کاربری رایگان در دوره ایجاد خواهیم کرد.

به روز رسانی های اصلی دوره از زمان راه اندازی

مارس 2023 - بخش‌های جدید 6 و 7 اضافه شدند. بخش 8 به روز شد. این تغییرات برای انعکاس آخرین توصیه های Databricks در مورد دسترسی به Azure Data Lake است. همچنین، این راه‌حل بهتری برای تکمیل پروژه دوره برای دانش‌آموزانی که از اشتراک دانشجویی Azure یا اشتراک‌های شرکتی با دسترسی محدود به Azure Active Directory استفاده می‌کنند، ارائه می‌کند.

دسامبر 2022 - بخش‌های 3، 4 5 به‌روزرسانی شدند تا تغییرات اخیر رابط کاربری را در Azure Databricks منعکس کنند. همچنین شامل درس هایی در مورد عملکردهای اضافی است که اخیراً توسط Databricks به خوشه های Databricks ارائه شده است. .


خوش آمدید!

من مشتاقانه منتظر هستم تا در یادگیری یکی از ابزارهای مهندسی داده مورد تقاضا در ابر، Azure Databricks به شما کمک کنم! این دوره با پیاده سازی یک راه حل مهندسی داده با استفاده از Azure Databricks و Spark core برای یک پروژه دنیای واقعی تجزیه و تحلیل و گزارش داده های مسابقه موتور فرمول 1 آموزش داده شده است.

این مانند هیچ دوره دیگری در Udemy برای Azure Databricks نیست. پس از اتمام دوره شامل تمام تکالیف، من قویاً معتقدم که در موقعیتی خواهید بود که می توانید یک پروژه مهندسی داده در دنیای واقعی را به تنهایی شروع کنید و همچنین بر Azure Databricks مسلط باشید. من همچنین درس هایی در مورد Azure Data Lake Storage Gen2، Azure Data Factory و همچنین PowerBI گنجانده ام. تمرکز اصلی این دوره Azure Databricks و Spark core است، اما مفاهیم مرتبط و اتصال به سایر فناوری های ذکر شده را نیز پوشش می دهد. لطفاً توجه داشته باشید که این دوره جنبه های دیگر Spark مانند Spark streaming و Spark ML را پوشش نمی دهد. همچنین این دوره با استفاده از PySpark و همچنین Spark SQL تدریس شده است. Scala یا Java را پوشش نمی دهد.

این دوره یک پیشرفت منطقی از اجرای پروژه در دنیای واقعی را با مفاهیم فنی توضیح داده شده و نوت‌بوک‌های Databricks در همان زمان دنبال می‌کند. اگرچه این دوره به طور خاص برای آموزش مهارت های مورد نیاز برای گذراندن آزمون Azure Data Engineer Associate Certification Exam DP203 طراحی نشده است، اما می تواند به شما کمک کند تا بیشتر مهارت های لازم برای امتحان را بدست آورید.

من به همان اندازه برای وقت شما ارزش قائل هستم. بنابراین، من این دوره را طوری طراحی کردم که سریع و دقیق باشد. همچنین این دوره با زبان انگلیسی ساده و بدون اصطلاحات تخصصی تدریس شده است. من دوره را از پایه شروع می کنم و در پایان دوره شما به فناوری های مورد استفاده مسلط خواهید شد.

در حال حاضر این دوره موارد زیر را به شما آموزش می دهد

Azure Databricks

  • ساخت یک معماری راه حل برای راه حل مهندسی داده با استفاده از Azure Databricks، Azure Data Lake Gen2، Azure Data Factory و Power BI

  • ایجاد و استفاده از سرویس Azure Databricks و معماری Databricks در Azure

  • کار با نوت بوک Databricks و همچنین استفاده از ابزارهای Databricks، دستورات جادویی و غیره

  • انتقال پارامترها بین نوت بوک و همچنین ایجاد گردش کار نوت بوک

  • ایجاد، پیکربندی و نظارت بر خوشه‌های Databricks، مجموعه‌های کلاستر و مشاغل

  • نصب Azure Storage در Databricks با استفاده از اسرار ذخیره شده در Azure Key Vault

  • کار با جداول Databricks، Databricks File System (DBFS) و غیره

  • استفاده از دریاچه دلتا برای اجرای راه حل با استفاده از معماری Lakehouse

  • ایجاد داشبورد برای تجسم خروجی ها

  • اتصال به جداول Azure Databricks از PowerBI

Spark (فقط PySpark و SQL)

  • معماری Spark، API منابع داده و API Dataframe

  • PySpark - انتقال فایل‌های CSV، ساده و پیچیده JSON در دریاچه داده به‌عنوان فایل‌ها/جدول پارکت.

  • PySpark - تبدیل‌هایی مانند Filter، Join، Simple Aggregations، GroupBy، Window و غیره.

  • PySpark - ایجاد نمای محلی و موقت

  • Spark SQL - ایجاد پایگاه داده، جداول و نماها

  • Spark SQL - تبدیل‌هایی مانند Filter، Join، Simple Aggregations، GroupBy، Window و غیره.

  • Spark SQL - ایجاد نمای محلی و موقت

  • اجرای الگوهای بارگذاری کامل و بارگذاری افزایشی با استفاده از پارتیشن ها

دریاچه دلتا

  • ظهور معماری Data Lakehouse و نقش دریاچه دلتا.

  • خواندن، نوشتن، به‌روزرسانی، حذف و ادغام در دریاچه دلتا با استفاده از PySpark و همچنین SQL

  • تاریخچه، سفر در زمان و خلاء

  • تبدیل فایل‌های پارکت به فایل‌های دلتا

  • اجرای الگوی بار افزایشی با استفاده از دریاچه دلتا

Azure Data Factory

  • ایجاد خطوط لوله برای اجرای نوت بوک Databricks

  • طراحی خطوط لوله قوی برای مقابله با سناریوهای غیرمنتظره مانند فایل های از دست رفته

  • ایجاد وابستگی بین فعالیت ها و همچنین خطوط لوله

  • زمان‌بندی خطوط لوله با استفاده از محرک‌های کارخانه داده برای اجرا در فواصل زمانی منظم

  • برای بررسی خطاها/خروجی ها، محرک ها/خطوط لوله را زیر نظر بگیرید.



سرفصل ها و درس ها

معرفی Introduction

  • معرفی دوره Course Introduction

  • ساختار دوره Course Structure

  • دانلود منابع دوره Course Resources Download

  • دانلود اسلایدهای دوره Course Slides Download

اشتراک Azure (اختیاری) Azure Subscription (Optional)

  • ایجاد حساب رایگان Azure Creating Azure Free Account

  • مروری بر پورتال لاجورد Azure Portal Overview

بررسی اجمالی Azure Databricks Azure Databricks Overview

  • آشنایی با Azure Databricks Introduction to Azure Databricks

  • ایجاد سرویس Azure Databricks Creating Azure Databricks Service

  • مروری بر رابط کاربری Databricks Databricks User Interface Overview

  • بررسی اجمالی معماری Databricks Azure Azure Databricks Architecture Overview

خوشه های Databricks Databricks Clusters

  • نمای کلی بخش Section Overview

  • لطفا بخوانید - نکته مهم برای اشتراک رایگان و دانشجویی Please Read - Important Note for Free and Student Subscription

  • انواع خوشه Databricks Azure Azure Databricks Cluster Types

  • پیکربندی خوشه Databricks Azure Azure Databricks Cluster Configuration

  • ایجاد خوشه Azure Databricks Creating Azure Databricks Cluster

  • قیمت گذاری Azure Databricks Azure Databricks Pricing

  • کنترل هزینه Azure Azure Cost Control

  • Azure Databricks Cluster Pool Azure Databricks Cluster Pool

  • خط مشی خوشه Databricks Azure Azure Databricks Cluster Policy

نوت بوک های Databricks Databricks Notebooks

  • نمای کلی بخش Section Overview

  • معرفی نوت بوک های Azure Databricks Azure Databricks Notebooks Introduction

  • دستورات جادویی Magic commands

  • ابزارهای Databricks Databricks Utilities

  • دانلود راه حل پروژه - دفترچه یادداشت دیتابریکس Project Solution Download - Databricks Notebooks

  • دانلود راه حل پروژه - فایل های Python/SQL Project Solution Download - Python/SQL Files

دسترسی به Azure Data Lake از Databricks Accessing Azure Data Lake from Databricks

  • دسترسی به نمای کلی دریاچه داده Azure Accessing Azure Data Lake Overview

  • ایجاد Azure Data Lake Storage Gen2 Creating Azure Data Lake Storage Gen2

  • مرور کلی Azure Storage Explorer Azure Storage Explorer Overview

  • با استفاده از کلیدهای دسترسی به دریاچه داده Azure دسترسی پیدا کنید Access Azure Data Lake using Access Keys

  • با استفاده از SAS Token به دریاچه داده Azure دسترسی پیدا کنید Access Azure Data Lake using SAS Token

  • با استفاده از Service Principal به Azure Data Lake دسترسی پیدا کنید Access Azure Data Lake using Service Principal

  • Cluster Scoped Authentication Cluster Scoped Authentication

  • با استفاده از Credential Passthrough به Azure Data Lake دسترسی پیدا کنید Access Azure Data Lake using Credential Passthrough

  • روش پیشنهادی برای پروژه دوره Recommended Approach for Course Project

دسترسی ایمن به دریاچه داده لاجورد Securing Access to Azure Data Lake

  • بررسی اجمالی اسرار امن Securing Secrets Overview

  • ایجاد Azure Key Vault Creating Azure Key Vault

  • ایجاد محدوده مخفی Creating Secret Scope

  • ابزار Databricks Secrets Databricks Secrets Utility

  • استفاده از رازها برای دسترسی به دریاچه داده لاجورد با استفاده از نوت بوک Using Secrets to Access Azure Data Lake using notebooks

  • استفاده از رازها برای دسترسی به دریاچه داده لاجورد با استفاده از نوت بوک (تکالیف) Using Secrets to Access Azure Data Lake using notebooks (Assignment)

  • استفاده از Secrets Utility در Cluster Using Secrets Utility in Clusters

نصب Data Lake Container به Databricks Mounting Data Lake Container to Databricks

  • نمای کلی بخش Section Overview

  • سیستم فایل Databricks (DBFS) Databricks File System (DBFS)

  • نمای کلی Databricks Mount Databricks Mount overview

  • نصب Azure Data Lake Storage Gen2 Mounting Azure Data Lake Storage Gen2

  • نصب Azure Data Lake Storage Gen2 (تخصیص) Mounting Azure Data Lake Storage Gen2 (Assignment)

نمای کلی پروژه Formula1 Formula1 Project Overview

  • نمای کلی بخش Section Overview

  • بررسی اجمالی داده های فرمول 1 Formula1 Data Overview

  • داده های فرمول 1 را در Data Lake بارگذاری کنید Upload Formula1 Data to Data Lake

  • بررسی اجمالی نیازمندی های پروژه Project Requirement Overview

  • بررسی اجمالی معماری راه حل Solution Architecture Overview

معرفی جرقه Spark Introduction

  • معماری خوشه جرقه Spark Cluster Architecture

  • نمای کلی API چارچوب داده و منبع داده Dataframe & Data Source API Overview

جذب داده - CSV Data Ingestion - CSV

  • بررسی اجمالی داده‌ها Data Ingestion Overview

  • پرونده مدارها - الزامات Circuits File - Requirements

  • فایل مدارها - Dataframe Reader Circuits File - Dataframe Reader

  • فایل مدارها - طرحواره را مشخص کنید Circuits File - Specify Schema

  • پرونده مدارها - ستون ها را انتخاب کنید Circuits File - Select Columns

  • فایل مدارها - WithColumnRenamed Circuits File - WithColumnRenamed

  • فایل مدارها - WithColumn Circuits File - WithColumn

  • فایل مدارها - Dataframe Writer Circuits File - Dataframe Writer

  • فایل مسابقه - الزامات Races File - Requirements

  • فایل مسابقه - برنامه اسپارک (تکلیف) Races File - Spark Program (Assignment)

  • فایل Races - پارتیشن بندی Races File - Partitioning

انتقال داده - JSON Data Ingestion - JSON

  • فایل سازنده - الزامات Constructors File - Requirements

  • فایل سازنده - خواندن داده ها Constructors File - Read Data

  • فایل سازنده - تبدیل و نوشتن داده ها Constructors File - Transform & Write Data

  • فایل درایورها - الزامات Drivers File - Requirements

  • فایل Drivers - برنامه Spark Drivers File - Spark Program

  • فایل نتایج - الزامات Results File - Requirements

  • فایل نتایج - برنامه Spark (تکلیف) Results File - Spark Program (Assignment)

  • فایل پیت استاپ - الزامات Pitstops File - Requirements

  • فایل پیت استاپ - برنامه اسپارک Pitstops File - Spark Program

بلع داده - چندین فایل Data Ingestion - Multiple Files

  • زمان دور - مورد نیاز Lap Times - Requirements

  • Lap Times - برنامه Spark Lap Times - Spark Program

  • واجد شرایط - الزامات Qualifying - Requirements

  • واجد شرایط - برنامه اسپارک (تکالیف) Qualifying - Spark Program (Assignment)

Databricks Workflows Databricks Workflows

  • نمای کلی بخش Section Overview

  • از جمله دفترچه یادداشت کودک Including a Child Notebook

  • انتقال پارامترها به نوت بوک Passing Parameters to Notebooks

  • گردش کار نوت بوک Notebook Workflows

  • مشاغل Databricks Databricks Jobs

فیلتر و پیوستن به تبدیل Filter & Join Transformations

  • نمای کلی بخش Section Overview

  • تبدیل فیلتر Filter Transformation

  • Join Transformation - Inner Join Join Transformation - Inner Join

  • Join Transformation - Outer Join Join Transformation - Outer Join

  • Join Transformation - Semi, Anti & Cross Joins Join Transformation - Semi, Anti & Cross Joins

  • به نتایج مسابقه بپیوندید - مورد نیاز Join Race Results - Requirement

  • راه اندازی لایه ارائه (تکلیف) Set-up Presentation Layer (Assignment)

  • به نتایج مسابقه بپیوندید - راه حل (تکلیف) Join Race Results - Solution (Assignment)

تجمعات Aggregations

  • نمای کلی بخش Section Overview

  • توابع جمع ساده Simple Aggregate functions

  • دسته بندی بر اساس Group By

  • توابع پنجره Window Functions

  • جدول رده بندی رانندگان Driver Standings

  • جدول رده بندی سازندگان (تکالیف) Constructor Standings (Assignment)

استفاده از SQL در Spark Applications Using SQL in Spark Applications

  • نمایش دمای محلی Local Temp View

  • نمایش دمای جهانی Global Temp View

Spark SQL - پایگاه های داده/جداول/نماها Spark SQL - Databases/ Tables/ Views

  • Spark SQL - مقدمه Spark SQL - Introduction

  • پایگاه های داده Databases

  • جداول مدیریت شده Managed Tables

  • جداول خارجی External Tables

  • بازدیدها Views

  • مورد نیاز پروژه Formula1 SQL Formula1 Project SQL Requirement

  • ایجاد جدول - منبع CSV Create Table - CSV Source

  • ایجاد جدول - منبع JSON Create Table - JSON Source

  • ایجاد جدول - منبع چند فایل Create Table - Multi Files Source

  • ایجاد جدول - منبع پارکت (داده های پردازش شده) Create Table - Parquet Source (Processed Data)

  • ایجاد جدول - منبع پارکت (داده های ارائه) - تکلیف Create Table - Parquet Source (Presentation Data) - Assignment

Spark SQL - فیلترها/اتصالات/تجمعات Spark SQL - Filters/ Joins/ Aggregations

  • نمای کلی بخش Section Overview

  • مبانی SQL DML SQL DML Basics

  • توابع ساده SQL SQL Simple Functions

  • توابع SQL Aggregates/Window SQL Aggregates/ Window functions

  • SQL Joins SQL Joins

Spark SQL - تجزیه و تحلیل Spark SQL - Analysis

  • معرفی Introduction

  • جدول نتایج مسابقه را ایجاد کنید Create Race Results table

  • رانندگان غالب - تجزیه و تحلیل Dominant Drivers - Analysis

  • تیم های غالب - تجزیه و تحلیل Dominant Teams - Analysis

  • درایورهای غالب - تجسم Dominant Drivers - Visualisation

  • تیم های غالب - تجسم Dominant Teams - Visualisation

  • ایجاد داشبورد - درایورها Create dashboards - Drivers

  • ایجاد داشبورد - تیم ها Create dashboards - Teams

بار افزایشی Incremental Load

  • نمای کلی بخش Section Overview

  • الگوهای طراحی بارگذاری داده ها Data Loading Design Patterns

  • سناریوی پروژه فرمول 1 Formula1 Project Scenario

  • تنظیم داده های پروژه Formula1 Formula1 Project Data Set-up

  • اجرای کامل Refresh Full Refresh Implementation

  • بار افزایشی - روش 1 Incremental Load - Method 1

  • بار افزایشی - روش 2 Incremental Load - Method 2

  • بهبود بار افزایشی - تکلیف Incremental Load Improvements - Assignment

  • بهبود بار افزایشی - راه حل Incremental Load Improvements - Solution

  • بار افزایشی - گردش کار نوت بوک Incremental Load - Notebook Workflows

  • بار افزایشی - نتایج مسابقه Incremental Load - Race Results

  • بار افزایشی - جایگاه راننده Incremental Load - Driver Standings

  • بار افزایشی - جدول رده بندی سازنده (تخصیص) Incremental Load - Constructor Standings (Assignment)

دریاچه دلتا Delta Lake

  • نمای کلی بخش Section Overview

  • مشکلات دریاچه های داده Pitfalls of Data Lakes

  • معماری دیتا لیک هاوس Data Lakehouse Architecture

  • برای دریاچه دلتا بخوانید و بنویسید Read & Write to Delta Lake

  • به روز رسانی و حذف در دریاچه دلتا Updates and Deletes on Delta Lake

  • ادغام/صعود به دریاچه دلتا Merge/ Upsert to Delta Lake

  • تاریخچه، سفر در زمان، خلاء History, Time Travel, Vacuum

  • گزارش معاملات دریاچه دلتا Delta Lake Transaction Log

  • تبدیل از پارکت به دلتا Convert from Parquet to Delta

  • انتقال داده - فایل مدارها Data Ingestion - Circuits File

  • داده‌ها - فایل نتایج Data Ingestion - Results File

  • جذب داده - بهبود فایل نتایج Data Ingestion - Results File Improvements

  • انتقال داده - همه فایل‌های دیگر (تخصیص) Data Ingestion - All Other Files (Assignment)

  • انتقال داده - رفع موارد تکراری در داده های نتایج Data Ingestion - Fix Duplicates in Results Data

  • تبدیل داده ها - همه نوت بوک های PySpark Data Transformation - All PySpark Notebooks

  • تبدیل داده ها - نوت بوک SQL Data Transformation - SQL Notebook

کارخانه داده لاجورد Azure Data Factory

  • نمای کلی بخش Section Overview

  • بررسی اجمالی کارخانه داده Azure Azure Data Factory Overview

  • سرویس Azure Data Factory را ایجاد کنید Create Azure Data Factory Service

  • Azure Data Factory Components Azure Data Factory Components

  • ایجاد Pipeline - Circuits File Ingestion Create Pipeline - Circuits File Ingestion

  • اشکال زدایی خط لوله Debugging a Pipeline

  • به‌روزرسانی خط لوله - همه فایل‌های دیگر را بلعید Update Pipeline - Ingest All Other Files

  • بهبود خط لوله - مدیریت فایل های گمشده Improve Pipeline - Handle Missing Files

  • ایجاد خط لوله - نوت بوک های تحول Create Pipeline - Transformation Notebooks

  • ایجاد ADF Trigger Create ADF Trigger

به سایر خدمات متصل شوید Connect to Other Services

  • Power BI Power BI

مراحل بعدی Next Steps

  • موفق باشید Good Luck

  • سخنرانی پاداش Bonus Lecture

نمایش نظرات

آموزش Azure Databricks & Spark برای مهندسان داده (PySpark/SQL)
جزییات دوره
17.5 hours
164
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
46,416
4.6 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Ramesh Retnasamy Ramesh Retnasamy

مهندس/معمار داده های ابری