آموزش دیتا‌بریکس آژور - مهندسی داده با پروژه واقعی در زمان واقعی - آخرین آپدیت

دانلود Azure DataBricks - Data Engineering With Real Time Project

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

پروژه واقعی در داده‌های خرده‌فروشی با PySpark، SQL و Delta Lake

یادگیری عملی و جامع معماری Medallion، مدل‌سازی داده‌های ابعادی، طراحی Delta Lakehouse، معماری Spark Core، راه‌اندازی Unity Catalog و بهینه‌سازی عملکرد با PySpark.

کلیدواژه‌های کلیدی:

  • پروژه واقعی داده خرده‌فروشی
  • PySpark برای مهندسی داده
  • SQL در Databricks
  • Delta Lake و Delta Live Tables
  • Unity Catalog در Databricks
  • AutoLoader برای بارگذاری خودکار داده
  • بهینه‌سازی عملکرد Spark
  • معماری Medallion
  • مدل‌سازی ابعادی
  • طراحی Delta Lakehouse
  • معماری Spark Core
  • راه‌اندازی Unity Catalog
  • راه‌اندازی کلاستر Spark
  • PySpark DataFrame Reader و Writer
  • توابع تبدیل و اقدام در PySpark
  • توابع تاریخ و زمان در PySpark
  • توابع تجمیع (Aggregation)
  • ادغام DataFrames (Joins)
  • داده‌های پیچیده (Complex Data)
  • جداول خارجی Spark SQL
  • جداول مدیریت شده Spark SQL
  • جداول Delta Lake
  • اسکریپت CTAS (Create Table As)
  • نماهای موقت (Temp Views)
  • ادغام جداول (Table Joins)
  • خطوط لوله پردازش داده (Data Transformation Pipelines)
  • بارگذاری افزایشی (Incremental Loading)
  • زمان‌بندی کارها (Job Scheduling)
  • Spark Streaming
  • راه‌اندازی CHECKPOINTLOCATION
  • تکنیک‌های بهینه‌سازی عملکرد: ZORDER BY، BROADCAST JOIN، AQE، DATA SALTING، LIQUID CLUSTERING
  • ساخت پایگاه داده گزارش‌دهی
  • Data Lakehouse
  • Change Data Capture (CDC)
  • Delta Live Tables (DLT)
  • Materialized Views در DLT
  • Streaming Tables در DLT
  • پیکربندی خطوط لوله Delta Live Table
  • بررسی کیفیت داده (Data Quality Checks)
  • نظارت و ثبت وقایع (Monitoring and Logging)
  • تنظیمات امنیتی Azure
  • Microsoft Entra ID و RBAC
  • مدیریت فضای کاری Databricks
  • یکپارچه‌سازی GitHub با Databricks
  • خطوط لوله CI/CD برای استقرار کد
  • استقرار خودکار کد (Automated Code Deployment)

آنچه در این دوره خواهید آموخت:

این دوره جامع، شما را برای نقش‌های کلیدی مهندسی داده در پروژه‌های واقعی آماده می‌کند:

  • طراحی و پیکربندی Unity Catalog برای کنترل دسترسی بهتر و اتصال به مخازن داده خارجی.
  • طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای استخراج داده از خدمات وب (HTTP).
  • طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای استخراج داده از پایگاه‌های داده SQL.
  • طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای استخراج داده از سیستم‌های منبع API.
  • طراحی و توسعه جداول خارجی و مدیریت شده Spark SQL در Databricks.
  • ایجاد و پر کردن جداول Delta Lake با استفاده از نوت‌بوک‌های Databricks Spark SQL.
  • پر کردن جداول ابعادی گزارش‌دهی با کد Databricks SQL.
  • پر کردن جداول ابعادی گزارش‌دهی با پشتیبانی از SCD Type 2 با کد Databricks SQL.
  • پر کردن جدول فاکت گزارش‌دهی با کد Databricks SQL.
  • پردازش و مسطح‌سازی داده‌های نیمه‌ساختاریافته JSON با استفاده از تابع EXPLODE با PySpark.
  • ادغام داده‌ها و بارگذاری آن‌ها در لایه Gold DataLake با استفاده از PySpark.
  • پردازش داده‌های نیمه‌ساختاریافته JSON در لایه Silver DataLake با استفاده از PySpark.
  • ادغام داده‌ها و بارگذاری آن‌ها در لایه Gold DataLake با استفاده از Databricks SQL.
  • توسعه شغل‌های Databricks برای زمان‌بندی نوت‌بوک‌های استخراج و تبدیل داده.
  • طراحی و پیکربندی Delta Live Tables برای ادغام یکپارچه داده در تمام لایه‌ها.
  • راه‌اندازی Azure Monitor و Log Analytics برای نظارت خودکار اجراهای شغلی و جزئیات گزارش‌های افزوده.
  • راه‌اندازی Azure Key Vault و پیکربندی Key Vault Backed Secret Scopes در فضای کاری Databricks.
  • پیکربندی مخازن GitHub و ایجاد پوشه‌های Git Repo در فضای کاری Databricks.
  • طراحی و پیکربندی خطوط لوله CI/CD برای انتشار کد در چندین محیط.
  • شناسایی گلوگاه‌های عملکرد و انجام تنظیمات عملکرد با استفاده از تکنیک‌هایی مانند ZORDER BY، BROADCAST JOIN، ADAPTIVE QUERY EXECUTION، DATA SALTING و LIQUID CLUSTERING.

پیش‌نیازها:

این دوره شامل تمامی مهارت‌های پایه پایتون و SQL مورد نیاز برای توسعه کد است.


سرفصل ها و درس ها

مقدمه Introduction

  • مقدمه Introduction

  • مقدمه تحلیل داده Data Analytics Introduction

  • مهندس داده - معرفی نقش شغلی Data Engineer - Job Role Introduction

  • طراحی معماری پروژه - تعریف ورودی‌ها و خروجی‌ها Project Architecture Design - Define Inputs and Outputs

  • طراحی معماری پروژه - طراحی Data Lakehouse با استفاده از معماری Medallion Project Architecture Design - Datalakehouse Design Using Medallion Architecture

  • مبانی Cloud Cloud Fundamentals

  • راه‌اندازی حساب رایگان Azure Azure Free Account Setup

  • سوالات مصاحبه آزمایشی Mock Interview Questions

مرور کلی پورتال Azure و ایجاد منابع Azure Azure Portal Overview & Create Azure Resources

  • مرور کلی پورتال Azure Azure Portal Overview

  • راه‌اندازی Azure Databricks Azure Databricks-Setup

  • راه‌اندازی حساب Azure Data Lake Storage Azure DataLake Storage Account-Setup

  • حساب Azure Data Lake Storage - راه‌اندازی کانتینرها Azure DataLake Storage Account - Containers Setup

  • سوالات مصاحبه آزمایشی Mock Interview Questions

مقدمه PySpark PySpark Introduction

  • معماری Apache Spark Apache Spark Architecture

  • مرور کلی فضای کاری Databricks Databricks Workspace Overview

  • مرور کلی Notebook ها Notebooks Overview

  • پیکربندی کلاستر Spark Configure Spark Cluster

  • مقدمه PySpark - خواندن داده‌های منبع وب به عنوان DataFrame PySpark Introduction - Read Web Source Data As DataFrame

  • مقدمه PySpark - نوشتن داده‌های منبع وب در DataLake PySpark Introduction - Write Web Source Data in DataLake

  • پیکربندی اضافی Reader و Writer PySpark PySpark Reader And Writer - Additional Configuration Options

  • مرور کلی تبدیل‌های DataFrame در PySpark Pyspark DataFrame Transformations Overview

  • توابع تبدیل DataFrame در PySpark Pyspark DataFrame Transformation Functions

  • توابع اکشن DataFrame در PySpark Pyspark DataFrame Action Functions

  • تبدیلات و اکشن‌های اضافی DataFrame در PySpark Pyspark DataFrame Additional Transformations & Actions

  • توابع تجمیع DataFrame در PySpark Pyspark DataFrame Aggregation Functions

  • مدیریت مقادیر تاریخ و زمان در DataFrame با PySpark PySpark DataFrame Date And Time Values Handling

  • مرور کلی ابزارهای Databricks - dbutils Databricks Utilities - dbutils Overview

  • سوالات مصاحبه آزمایشی Mock Interview Questions

مقدمه SparkSQL SparkSQL Introduction

  • مقدمه Spark SQL Spark SQL - Introduction

  • تبدیل DataFrame های Spark به جداول SQL و بالعکس Spark DataFrames To SQL Tables Conversions & Vice Versa

  • ایجاد و پردازش جداول مدیریت شده Spark SQL Spark SQL - Managed Tables Creation & Processing

  • ایجاد و پردازش جداول خارجی Spark SQL Spark SQL External Tables Creation & Processing

  • توابع تبدیل داده در Spark SQL Spark SQL - Data Transformations Functions

  • توابع مدیریت تاریخ و زمان در Spark SQL Spark SQL - DataTime Handling Functions

  • سوالات مصاحبه آزمایشی Mock Interview Questions

پیکربندی Unity Catalog Unity Catalogue Configuration

  • مرور کلی Unity Catalog Unity Catalogue Overview

  • راهنمای گام به گام پیکربندی پیش‌فرض Unity Catalog Default Unity Catalogue Configuration Walkthrough

  • پیکربندی Unity Catalog خاص پروژه Configure Project Specific Unity Catalogue

  • مرحله ۱ - ایجاد کانکتور دسترسی جدید Databricks Step 1 - Create New Databricks Access Connector

  • مرحله ۲ - تنظیم دسترسی کانکتور دسترسی Databricks بر روی حساب ذخیره‌سازی DataLake Step 2 - Setup Databricks Access Connector Access On DataLake Storage Account

  • مرحله ۳ - ثبت کانکتور دسترسی Databricks در کاتالوگ فضای کاری Step 3 - Register Databricks Access Connector In WorkSpace Catalogue

  • مرحله ۴ - اتصال (Mount) مسیرهای کانتینر ذخیره‌سازی DataLake Step 4 - Link(Mount) DataLake Storage Containers Paths

  • مرحله ۵ - پیکربندی مکان ذخیره‌سازی برای اشیاء Unity Catalog Step 5 - Configure Storage Location For Unity Catalogue Objects

  • مرحله ۶ - ایجاد Unity Catalog خاص پروژه Step 6 - Create Project Specific Unity Catalogue

  • سوالات مصاحبه آزمایشی Mock Interview Questions

بارگذاری داده‌های منبع از سرویس وب (HTTP) به لایه برنز با استفاده از PySpark Ingest Source Data From Web(HTTP) Service Into Bronze Layer Using PYSPARK

  • مرور کلی بارگذاری داده‌های منبع وب HTTP HTTP Web Source Data Ingestion Overview

  • ماژولار کردن کد Modularize Code

  • خواندن داده‌های منبع وب و بارگذاری در لایه برنز Read Web Source Data & Ingest In Bronze Layer

  • پیکربندی پارامترهای نوت بوک Databricks Databricks Notebook Parameters Configuration

  • مرور کلی بارگذاری افزایشی Incremental Load Overview

  • پیاده‌سازی بارگذاری افزایشی - ذخیره تاریخ فایل‌های پردازش شده منبع Incremental Load Implementation - Store Processed Source File Dates

  • پیاده‌سازی بارگذاری افزایشی - خودکارسازی تاریخ فایل منبع بعدی برای پردازش Incremental Load Implementation - Automate Next Source File Date To Be Processed

  • بازنویسی نوت بوک بارگذاری Refactor Ingestion Notebook

  • اشکال‌زدایی کد و رفع خطاها Debugging Code & Fixing Errors

  • مرور کلی گردش کارها و Job های Databricks Databricks Workflows & Jobs Overview

  • راه‌اندازی Job Cluster برای اجرای Job های Databricks Setup Job Cluster To Run Databricks Job

  • زمان‌بندی نوت بوک بارگذاری قیمت‌گذاری روزانه Scheduling Daily Pricing Ingestion Notebook

  • پیکربندی جدول خارجی برای داده‌های قیمت‌گذاری روزانه در لایه برنز External Table Configuration For Daily Pricing Data In Bronze Layer

  • سوالات مصاحبه آزمایشی Mock Interview Questions

بارگذاری داده‌های منبع از جداول پایگاه داده با استفاده از PySpark Ingest Source Data From Database Tables Using PYSPARK

  • مرور کلی بارگذاری داده‌های منبع جداول پایگاه داده Database Tables Source Data Ingestion Overview

  • پیکربندی Reader پایگاه داده PySpark PySpark Database Reader Configuration

  • ماژولار کردن کد Modularize Code

  • پیکربندی Writer پایگاه داده PySpark PySpark Database Writer Configuration

  • پیکربندی Job - بارگذاری داده‌های منبع پایگاه داده Database Source Data Ingestion - Job Configuration

  • سوالات مصاحبه آزمایشی Mock Interview Questions

تبدیل لایه نقره‌ای - پیکربندی فایل‌های Parquet و جداول دلتا با استفاده از Spark SQL Silver Layer Transformation - Parquet Files & Delta Table Config Using Spark SQL

  • مرور کلی پردازش فایل‌های Parquet و جداول دلتا Parquet Files And Delta Table Processing Overview

  • تبدیل لایه نقره‌ای - خواندن جدول منبع با Spark SQL Silver Layer Transformation - Spark SQL Read Source Table

  • ایجاد جدول Delta Lake Delta Lake Table Creation

  • تبدیلات لایه نقره‌ای و بارگذاری جدول دلتا Silver Layer Transformations & Loading Delta Table

  • مرور کلی کپچر تغییر داده (CDC) Change Data Capture(CDC) Overview

  • کپچر تغییر داده (CDC) - ثبت آخرین مقدار تاریخ و زمان پردازش شده Change Data Capture(CDC) - Capture Last Processed DateTime Value

  • کپچر تغییر داده - شناسایی رکوردهای جدید با استفاده از آخرین مقدار تاریخ و زمان پردازش شده Change Data Capture - Identify New Records Using Last Processed DateTime Value

  • بازنویسی نوت بوک تبدیل لایه نقره‌ای Refactor Sliver Layer Transformation Notebook

  • زمان‌بندی Job - تبدیل لایه نقره‌ای Silver Layer Transformation - Job Scheduling

  • سوالات مصاحبه آزمایشی Mock Interview Questions

مدل‌سازی داده‌های ابعادی (اسکیما ستاره‌ای) - طراحی پایگاه داده گزارش‌دهی Dimensional Data Modelling (Star Schema) - Reporting Database Design

  • مرور کلی مدل‌سازی داده‌های ابعادی Dimensional Data Modelling Overview

  • مرور کلی داده‌های منبع مدل‌سازی داده‌های ابعادی Dimensional Data Modelling - Source Data Overview

  • مدل‌سازی داده‌های ابعادی - شناسایی ستون‌های ابعادی و واقعی Dimensional Data Modelling - Identify Dimension And Fact Columns

  • مدل‌سازی داده‌های ابعادی - طراحی جداول ابعادی Dimensional Data Modelling - Design Dimension Tables

  • مدل‌سازی داده‌های ابعادی - طراحی جداول واقعی Dimensional Data Modelling - Design Fact Tables

  • مدل‌سازی داده‌های ابعادی - مدل داده منطقی در مقابل فیزیکی Dimensional Data Modelling - Logical Vs Physical Data Model

  • مدل‌سازی داده‌های ابعادی - ایجاد جداول گزارش‌دهی فیزیکی Dimensional Data Modelling - Create Physical Reporting Tables

  • سوالات مصاحبه آزمایشی Mock Interview Questions

بارگذاری جداول ابعادی گزارش‌دهی (انواع SCD 1 و 2) و جداول واقعی با استفاده از Spark SQL Reporting Dimension(SCD Types 1 & 2 ) And Fact Tables Load Using Spark SQL

  • مرور کلی بارگذاری جداول ابعادی و واقعی گزارش‌دهی Reporting Dimension And Fact Tables Load Overview

  • بارگذاری جدول ابعادی - انتخاب رکوردهای منحصر به فرد Dimension Table Load - Select Unique Records

  • بارگذاری جدول ابعادی - تولید کلیدهای جایگزین Dimension Table Load - Generate Surrogate Keys

  • بارگذاری جدول ابعادی - کپچر تغییر داده (CDC) Dimension Table Load - Change Data Capture(CDC)

  • بارگذاری جدول ابعادی - بارگذاری جدول REPORTING_DIM_STATE_GOLD Dimension Table Load - Load REPORTING_DIM_STATE_GOLD Table

  • بارگذاری جداول ابعادی - پر کردن تمام جداول ابعادی در لایه طلایی Dimension Tables Load - Populate All Dimension Tables In Gold Layer

  • پردازش جدول ابعادی DATE DATE Dimension Table Processing

  • بارگذاری جدول واقعی REPORTING_FACT_DAILY_PRICING_GOLD Fact Table REPORTING_FACT_DAILY_PRICING_GOLD Load

  • مرور کلی بارگذاری جداول ابعادی که به آرامی تغییر می‌کنند (SCD) - پردازش انواع SCD 1 و 2 Slowly Changing Dimension (SCD) Tables Load - SCD TYPE 1 & 2 Processing Overview

  • پردازش SCD نوع ۱ - قسمت ۱ SCD TYPE1 Processing - Take 1

  • پردازش SCD نوع ۱ - قسمت ۲ SCD TYPE1 Processing - Take 2

  • مرور کلی پردازش SCD نوع ۲ SCD TYPE2 Processing Overview

  • پردازش SCD نوع ۲ - قسمت ۱ SCD TYPE2 Processing - Take 1

  • پردازش SCD نوع ۲ - قسمت ۲ SCD TYPE2 Processing - Take 2

  • پردازش SCD نوع ۲ - قسمت ۳ SCD TYPE2 Processing - Take 3

  • زمان‌بندی بارگذاری جداول ابعادی و واقعی گزارش‌دهی Scheduling Reporting Dimension And Fact Tables Load

  • سوالات مصاحبه آزمایشی Mock Interview Questions

Spark Structured Streaming - پردازش داده‌های بی‌درنگ Spark Structured Streaming - Real Time Data Processing

  • تولید داده‌های منبع جریانی Streaming Source Data Generation

  • مرور کلی Spark Structured Streaming Spark Structured Streaming Overview

  • پیکربندی Reader و Writer در Spark Structured Streaming Spark Structured Streaming Reader and Writer Config

  • سوالات مصاحبه آزمایشی Mock Interview Questions

مقدمه Delta Live Tables Delta Live Tables Introduction

  • مرور کلی Delta Live Tables Delta Live Tables Overview

  • Delta Live Table - ایجاد نمای مادی شده Delta Live Table - Create Materialized View

  • Delta Live Tables - پیکربندی پایپ‌لاین Delta Live Table Delta Live Tables - Configure Delta Live Table Pipeline

  • Delta Live Tables - ایجاد جدول منبع جریانی و پیکربندی AUTO LOADER Delta Live Tables - Create Streaming Source Table & Configure AUTO LOADER

  • Delta Live Tables - تست AUTO LOADER Delta Live Tables - Testing AUTO LOADER

  • Delta Live Table - ایجاد از Delta Live Table موجود Delta Live Table - Create From Existing Delta Live Table

  • Delta Live Tables - فعال کردن بررسی کیفیت داده Delta Live Tables - Enable Data Quality Checks

  • Delta Live Tables - کپچر تغییر داده خودکار (CDC) با استفاده از APPLY CHANGES API Delta Live Tables - Automated Change Data Capture(CDC) Using APPLY CHANGES API

  • سوالات مصاحبه آزمایشی Mock Interview Questions

بارگذاری لایه برنز DataLake - بارگذاری داده‌های منبع API موقعیت جغرافیایی Datalake Bronze Layer Load - Ingest Geo-Location API Source Data

  • مرور کلی طراحی DataLake DataLake Design Overview

  • مرور کلی بارگذاری داده‌های منبع API موقعیت جغرافیایی GeoLocation API Source Data Ingestion Overview

  • بارگذاری داده‌های API موقعیت جغرافیایی - انجام درخواست API برای تمام بازارها GeoLocation API Data Ingestion - Make API Request For All Markets

  • بارگذاری داده‌های API موقعیت جغرافیایی - جمع‌آوری داده‌های پاسخ API برای تمام بازارها GeoLocation API Data Ingestion - Collect API Response Data For All Market

  • اشکال‌زدایی خطا و رفع آن Debugging Error And Fixing The Error

  • سوالات مصاحبه آزمایشی Mock Interview Questions

تبدیلات لایه نقره‌ای DataLake - تبدیل داده‌های منبع API موقعیت جغرافیایی DataLake Silver Layer Transformations - Transform Geo Location API Source Data

  • مرور کلی تبدیل داده‌های موقعیت جغرافیایی GeoLocation Data Transformation Overview

  • تبدیل داده‌های موقعیت جغرافیایی - خواندن داده‌های پیچیده JSON Geolocation Data Transformation - Read Complex JSON Data

  • تبدیل داده‌های موقعیت جغرافیایی - تبدیل مقادیر آرایه به ردیف با استفاده از EXPLODE Geolocation Data Transformation - Transform Array Values To Rows Using EXPLODE

  • تبدیل داده‌های موقعیت جغرافیایی - ادغام داده‌های منفجر شده با استفاده از JOIN های DataFrame Geolocation Data Transformation - Integrate Exploded Data Using DataFrame JOINS

  • تبدیل داده‌های موقعیت جغرافیایی - پاکسازی و آماده‌سازی برای انتشار لایه طلایی Geolocation Data Tranformation - Clean And Ready For Gold Layer Publish

  • سوالات مصاحبه آزمایشی Mock Interview Questions

بارگذاری لایه برنز DataLake - بارگذاری منبع داده‌های آب و هوایی API Datalake Bronze Layer Load - Ingest Weather-Data API Source

  • مرور کلی بارگذاری داده‌های منبع API داده‌های آب و هوایی Weather Data API Source Data Ingestion Overview

  • بارگذاری API داده‌های آب و هوایی - انجام درخواست API برای تمام بازارها Weather Data API Ingestion - Make API Request For All Markets

  • بارگذاری داده‌های پاسخ API API داده‌های آب و هوایی - بارگذاری داده‌های پاسخ API برای تمام بازارها Weather API Data Ingestion - Ingest API Response Data For All Market

  • سوالات مصاحبه آزمایشی Mock Interview Questions

تبدیلات لایه نقره‌ای DataLake - تبدیل داده‌های آب و هوایی (تکلیف) DataLake Silver Layer Transformations - Transform Weather Data (ASSIGNMENT)

  • مرور کلی تخصیص وظیفه پروژه دنیای واقعی Real World Project Task Assignment Overview

  • نرم‌افزار مدیریت پروژه چابک بی‌درنگ - مرور کلی Confluence JIRA Real Time Agile Project Management Software - Confluence JIRA Overview

  • پشتیبانی اضافی برای تکمیل تکلیف Extra Support To Complete Assignment

بارگذاری لایه طلایی DataLake - انتشار داده‌های منبع هوش مصنوعی پیش‌بینی قیمت (تکلیف) DataLake Gold Layer Load- Publish Price Prediction AI Source Data (ASSIGNMENT)

  • مرور کلی تخصیص وظیفه پروژه بی‌درنگ Real Time Project Task Assignment Overview

نظارت و ثبت - Azure Monitor, Log Analytics & اعلان‌های Job Monitoring And Logging - Azure Monitor , Log Analytics & Job Notifications

  • مرور کلی نظارت و ثبت Monitoring And Logging Overview

  • دلیل پیکربندی نظارت در پروژه بی‌درنگ Reason For Configuring Monitoring In Real Time Project

  • دلیل پیکربندی ثبت گسترده در پروژه بی‌درنگ Reason For Configuring Extended Logging In Real Time Project

  • سناریو و رفع خرابی Job تولید بی‌درنگ Real Time Production Job Failure Scenario And Fixing

  • تنظیم اعلان‌های Job Databricks برای ارسال خودکار ایمیل هشدار خرابی Job Databricks Job Notifications To Setup Automated Email Alert For Job Failures

  • Azure Monitor - تنظیمات Metrics و Alerts Azure Monitor - Metrics And Alerts Setup

  • Azure Log Analytics - فعال کردن ثبت گسترده و پرس‌وجو از جداول لاگ Azure Log Analytics - Enabling Extended Logging & Querying Log Tables

  • خلاصه ماژول Module Summary

تنظیمات امنیتی - کنترل دسترسی AZURE IAM (RBAC) و مدیر فضای کاری Databricks Security Settings - AZURE IAM(RBAC) Access Control & Databricks WorkSpace Admin

  • مرور کلی تنظیمات امنیتی Security Settings Overview

  • کنترل دسترسی Azure IAM - پیکربندی کنترل دسترسی مبتنی بر نقش (RBAC) Azure IAM Access Control - Role Based Access Control(RBAC) Configuration

  • تنظیمات امنیتی مدیر فضای کاری Databricks Databricks Workspace Admin Security Settings

  • Azure Key Vault - راه‌اندازی منابع Azure Key Vault - Resource Setup

  • Azure Key Vault - ذخیره رمزها Azure Key Vault - Storing Secrets

  • تنظیم دامنه امنیتی Key Vault در Databricks و استفاده از رمزها در نوت بوک Setup Key Vault Security Scope In Databricks& Use Secrets In Notebook

  • خلاصه ماژول Module Summary

یکپارچه‌سازی مخزن Git برای فضای کاری Databricks Git Repository Integration For Databricks WorkSpace

  • مرور کلی مخزن Git Git Repository Overview

  • راه‌اندازی حساب و مخزن GitHub GitHub Account And Repository Setup

  • یکپارچه‌سازی مخزن GitHub و تنظیم پوشه‌های Git در Databricks GitHub Repository Integration & Setup Git Folders In Databricks

  • پوشه‌های Git - کار با شاخه‌ها Git Folders - Working With Branches

  • پوشه‌های Git - کامیت و ادغام (درخواست Pull) کد Git Folders - Committing And Merging(PULL REQUEST) Code

  • پوشه‌های Git - همکاری با چندین توسعه‌دهنده Git Folders - COLLOBARATIVE Working With Multiple Developers

  • تکلیف پوشه‌های Git - روش‌های کار با شاخه‌ها Git Folders ASSIGNMENT - Ways Of Working With Branches

  • خلاصه ماژول Module Summary

پایپ‌لاین CI/CD (یکپارچه‌سازی مداوم / استقرار مداوم) CI/CD (Continuous Integration / Continuous Deployment) Pipeline

  • مرور کلی فرآیند CI/CD CI_CD Process Overview

  • راه‌اندازی محیط تولید Setup Production Environment

  • پیکربندی پایپ‌لاین CI/CD با استفاده از GitHub Actions Configure CI/CD Pipeline Using GitHub Actions

  • مرور کد پایپ‌لاین CI/CD CI/CD Pipeline Code WalkThrough

  • تست استقرار خودکار کد پایپ‌لاین CI/CD CI/CD Pipeline Testing Automated Code Deployment

  • خلاصه ماژول Module Summary

بهینه‌سازی عملکرد Performance Tuning

  • مرور کلی بهینه‌سازی عملکرد و داخلی اجرای کد کلاستر Spark Performance Tuning Overview & Spark Cluster Code Execution Internals

  • مرور کلی گزارش‌ها، متریک‌ها و نمودارهای DAG در Spark UI Spark UI Logs , Metrics , DAG Graphs Overview

  • مشکل عملکرد فایل‌های کوچک - ZORDER BY, OPTIMIZE, AUTO OPTIMIZE, PARTITION Small Files Performance Issue - ZORDER BY , OPTIMIZE , AUTO OPTIMIZE , PARTITION

  • مشکل مخلوط کردن داده‌ها - BROADCAST & SHUFFLE HASH JOIN, ADAPTIVE QUERY EXECUTION Data Shuffling Issue - BROADCAST & SHUFFLE HASH JOIN , ADAPTIVE QUERY EXECUTION

  • مشکل سرریز شدن داده‌ها - AUTO OPTIMIZE SHUFFLE (AOS), محاسبه پارتیشن مخلوط کردن Data Spilling Issue - AUTO OPTIMIZE SHUFFLE(AOS) , SHUFFLE PARTITION CALCULATION

  • مشکل پراکندگی داده‌ها - ADAPTIVE QUERY EXECUTION (AQE), SALTING, HINTS در Spark SQL Data Skewing Issue - ADAPTIVE QUERY EXECUTION(AQE) , SALTING , SPARK SQL HINTS

  • مشکل انفجار داده‌ها - اندازه پارتیشن مخلوط کردن (وظیفه), REPARTITION Data Explosion Issue - SHUFFLE PARTITION(Task) SIZING , REPARTITION

  • PREDICATE PUSHDOWN, COLUMN/PARTITION PRUNING, DELTA/SPARK CACHE, LIQUID CLUSTER PREDICATE PUSHDOWN ,COLUMN/PARTITION PRUNING ,DELTA/SPARK CACHE, LIQUID CLUSTER

  • سوالات مصاحبه آزمایشی Mock Interview Questions

نمایش نظرات

آموزش دیتا‌بریکس آژور - مهندسی داده با پروژه واقعی در زمان واقعی
جزییات دوره
16.5 hours
171
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
3,010
4.6 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Ragunathan Ramanujam Ragunathan Ramanujam

مشاور مهندسی داده/تحلیل داده آژور