دسترسی سریع:

نمونه ویدیوها |
توضیحات دوره |
سرفصل ها و درس ها |
نظرات

مسیر:

صفحه اصلی

🔔 با توجه به بهبود نسبی اینترنت، آماده‌سازی دوره‌ها آغاز شده است. به دلیل تداوم برخی اختلالات، بارگذاری دوره‌ها ممکن است با کمی تأخیر انجام شود. مدت اشتراک‌های تهیه‌شده محفوظ است.

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش دیتا‌بریکس آژور - مهندسی داده با پروژه واقعی در زمان واقعی - آخرین آپدیت

دانلود Azure DataBricks - Data Engineering With Real Time Project top rated

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره:

پروژه واقعی در داده‌های خرده‌فروشی با PySpark، SQL و Delta Lake

یادگیری عملی و جامع معماری Medallion، مدل‌سازی داده‌های ابعادی، طراحی Delta Lakehouse، معماری Spark Core، راه‌اندازی Unity Catalog و بهینه‌سازی عملکرد با PySpark.

کلیدواژه‌های کلیدی:

پروژه واقعی داده خرده‌فروشی
PySpark برای مهندسی داده
SQL در Databricks
Delta Lake و Delta Live Tables
Unity Catalog در Databricks
AutoLoader برای بارگذاری خودکار داده
بهینه‌سازی عملکرد Spark
معماری Medallion
مدل‌سازی ابعادی
طراحی Delta Lakehouse
معماری Spark Core
راه‌اندازی Unity Catalog
راه‌اندازی کلاستر Spark
PySpark DataFrame Reader و Writer
توابع تبدیل و اقدام در PySpark
توابع تاریخ و زمان در PySpark
توابع تجمیع (Aggregation)
ادغام DataFrames (Joins)
داده‌های پیچیده (Complex Data)
جداول خارجی Spark SQL
جداول مدیریت شده Spark SQL
جداول Delta Lake
اسکریپت CTAS (Create Table As)
نماهای موقت (Temp Views)
ادغام جداول (Table Joins)
خطوط لوله پردازش داده (Data Transformation Pipelines)
بارگذاری افزایشی (Incremental Loading)
زمان‌بندی کارها (Job Scheduling)
Spark Streaming
راه‌اندازی CHECKPOINTLOCATION
تکنیک‌های بهینه‌سازی عملکرد: ZORDER BY، BROADCAST JOIN، AQE، DATA SALTING، LIQUID CLUSTERING
ساخت پایگاه داده گزارش‌دهی
Data Lakehouse
Change Data Capture (CDC)
Delta Live Tables (DLT)
Materialized Views در DLT
Streaming Tables در DLT
پیکربندی خطوط لوله Delta Live Table
بررسی کیفیت داده (Data Quality Checks)
نظارت و ثبت وقایع (Monitoring and Logging)
تنظیمات امنیتی Azure
Microsoft Entra ID و RBAC
مدیریت فضای کاری Databricks
یکپارچه‌سازی GitHub با Databricks
خطوط لوله CI/CD برای استقرار کد
استقرار خودکار کد (Automated Code Deployment)

آنچه در این دوره خواهید آموخت:

این دوره جامع، شما را برای نقش‌های کلیدی مهندسی داده در پروژه‌های واقعی آماده می‌کند:

طراحی و پیکربندی Unity Catalog برای کنترل دسترسی بهتر و اتصال به مخازن داده خارجی.
طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای استخراج داده از خدمات وب (HTTP).
طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای استخراج داده از پایگاه‌های داده SQL.
طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای استخراج داده از سیستم‌های منبع API.
طراحی و توسعه جداول خارجی و مدیریت شده Spark SQL در Databricks.
ایجاد و پر کردن جداول Delta Lake با استفاده از نوت‌بوک‌های Databricks Spark SQL.
پر کردن جداول ابعادی گزارش‌دهی با کد Databricks SQL.
پر کردن جداول ابعادی گزارش‌دهی با پشتیبانی از SCD Type 2 با کد Databricks SQL.
پر کردن جدول فاکت گزارش‌دهی با کد Databricks SQL.
پردازش و مسطح‌سازی داده‌های نیمه‌ساختاریافته JSON با استفاده از تابع EXPLODE با PySpark.
ادغام داده‌ها و بارگذاری آن‌ها در لایه Gold DataLake با استفاده از PySpark.
پردازش داده‌های نیمه‌ساختاریافته JSON در لایه Silver DataLake با استفاده از PySpark.
ادغام داده‌ها و بارگذاری آن‌ها در لایه Gold DataLake با استفاده از Databricks SQL.
توسعه شغل‌های Databricks برای زمان‌بندی نوت‌بوک‌های استخراج و تبدیل داده.
طراحی و پیکربندی Delta Live Tables برای ادغام یکپارچه داده در تمام لایه‌ها.
راه‌اندازی Azure Monitor و Log Analytics برای نظارت خودکار اجراهای شغلی و جزئیات گزارش‌های افزوده.
راه‌اندازی Azure Key Vault و پیکربندی Key Vault Backed Secret Scopes در فضای کاری Databricks.
پیکربندی مخازن GitHub و ایجاد پوشه‌های Git Repo در فضای کاری Databricks.
طراحی و پیکربندی خطوط لوله CI/CD برای انتشار کد در چندین محیط.
شناسایی گلوگاه‌های عملکرد و انجام تنظیمات عملکرد با استفاده از تکنیک‌هایی مانند ZORDER BY، BROADCAST JOIN، ADAPTIVE QUERY EXECUTION، DATA SALTING و LIQUID CLUSTERING.

پیش‌نیازها:

این دوره شامل تمامی مهارت‌های پایه پایتون و SQL مورد نیاز برای توسعه کد است.

سرفصل ها و درس ها

مقدمه Introduction

مقدمه Introduction
مقدمه تحلیل داده Data Analytics Introduction
مهندس داده - معرفی نقش شغلی Data Engineer - Job Role Introduction
طراحی معماری پروژه - تعریف ورودی‌ها و خروجی‌ها Project Architecture Design - Define Inputs and Outputs
طراحی معماری پروژه - طراحی Data Lakehouse با استفاده از معماری Medallion Project Architecture Design - Datalakehouse Design Using Medallion Architecture
مبانی Cloud Cloud Fundamentals
راه‌اندازی حساب رایگان Azure Azure Free Account Setup
سوالات مصاحبه آزمایشی Mock Interview Questions

مرور کلی پورتال Azure و ایجاد منابع Azure Azure Portal Overview & Create Azure Resources

مرور کلی پورتال Azure Azure Portal Overview
راه‌اندازی Azure Databricks Azure Databricks-Setup
راه‌اندازی حساب Azure Data Lake Storage Azure DataLake Storage Account-Setup
حساب Azure Data Lake Storage - راه‌اندازی کانتینرها Azure DataLake Storage Account - Containers Setup
سوالات مصاحبه آزمایشی Mock Interview Questions

مقدمه PySpark PySpark Introduction

معماری Apache Spark Apache Spark Architecture
مرور کلی فضای کاری Databricks Databricks Workspace Overview
مرور کلی Notebook ها Notebooks Overview
پیکربندی کلاستر Spark Configure Spark Cluster
مقدمه PySpark - خواندن داده‌های منبع وب به عنوان DataFrame PySpark Introduction - Read Web Source Data As DataFrame
مقدمه PySpark - نوشتن داده‌های منبع وب در DataLake PySpark Introduction - Write Web Source Data in DataLake
پیکربندی اضافی Reader و Writer PySpark PySpark Reader And Writer - Additional Configuration Options
مرور کلی تبدیل‌های DataFrame در PySpark Pyspark DataFrame Transformations Overview
توابع تبدیل DataFrame در PySpark Pyspark DataFrame Transformation Functions
توابع اکشن DataFrame در PySpark Pyspark DataFrame Action Functions
تبدیلات و اکشن‌های اضافی DataFrame در PySpark Pyspark DataFrame Additional Transformations & Actions
توابع تجمیع DataFrame در PySpark Pyspark DataFrame Aggregation Functions
مدیریت مقادیر تاریخ و زمان در DataFrame با PySpark PySpark DataFrame Date And Time Values Handling
مرور کلی ابزارهای Databricks - dbutils Databricks Utilities - dbutils Overview
سوالات مصاحبه آزمایشی Mock Interview Questions

مقدمه SparkSQL SparkSQL Introduction

مقدمه Spark SQL Spark SQL - Introduction
تبدیل DataFrame های Spark به جداول SQL و بالعکس Spark DataFrames To SQL Tables Conversions & Vice Versa
ایجاد و پردازش جداول مدیریت شده Spark SQL Spark SQL - Managed Tables Creation & Processing
ایجاد و پردازش جداول خارجی Spark SQL Spark SQL External Tables Creation & Processing
توابع تبدیل داده در Spark SQL Spark SQL - Data Transformations Functions
توابع مدیریت تاریخ و زمان در Spark SQL Spark SQL - DataTime Handling Functions
سوالات مصاحبه آزمایشی Mock Interview Questions

پیکربندی Unity Catalog Unity Catalogue Configuration

مرور کلی Unity Catalog Unity Catalogue Overview
راهنمای گام به گام پیکربندی پیش‌فرض Unity Catalog Default Unity Catalogue Configuration Walkthrough
پیکربندی Unity Catalog خاص پروژه Configure Project Specific Unity Catalogue
مرحله ۱ - ایجاد کانکتور دسترسی جدید Databricks Step 1 - Create New Databricks Access Connector
مرحله ۲ - تنظیم دسترسی کانکتور دسترسی Databricks بر روی حساب ذخیره‌سازی DataLake Step 2 - Setup Databricks Access Connector Access On DataLake Storage Account
مرحله ۳ - ثبت کانکتور دسترسی Databricks در کاتالوگ فضای کاری Step 3 - Register Databricks Access Connector In WorkSpace Catalogue
مرحله ۴ - اتصال (Mount) مسیرهای کانتینر ذخیره‌سازی DataLake Step 4 - Link(Mount) DataLake Storage Containers Paths
مرحله ۵ - پیکربندی مکان ذخیره‌سازی برای اشیاء Unity Catalog Step 5 - Configure Storage Location For Unity Catalogue Objects
مرحله ۶ - ایجاد Unity Catalog خاص پروژه Step 6 - Create Project Specific Unity Catalogue
سوالات مصاحبه آزمایشی Mock Interview Questions

بارگذاری داده‌های منبع از سرویس وب (HTTP) به لایه برنز با استفاده از PySpark Ingest Source Data From Web(HTTP) Service Into Bronze Layer Using PYSPARK

مرور کلی بارگذاری داده‌های منبع وب HTTP HTTP Web Source Data Ingestion Overview
ماژولار کردن کد Modularize Code
خواندن داده‌های منبع وب و بارگذاری در لایه برنز Read Web Source Data & Ingest In Bronze Layer
پیکربندی پارامترهای نوت بوک Databricks Databricks Notebook Parameters Configuration
مرور کلی بارگذاری افزایشی Incremental Load Overview
پیاده‌سازی بارگذاری افزایشی - ذخیره تاریخ فایل‌های پردازش شده منبع Incremental Load Implementation - Store Processed Source File Dates
پیاده‌سازی بارگذاری افزایشی - خودکارسازی تاریخ فایل منبع بعدی برای پردازش Incremental Load Implementation - Automate Next Source File Date To Be Processed
بازنویسی نوت بوک بارگذاری Refactor Ingestion Notebook
اشکال‌زدایی کد و رفع خطاها Debugging Code & Fixing Errors
مرور کلی گردش کارها و Job های Databricks Databricks Workflows & Jobs Overview
راه‌اندازی Job Cluster برای اجرای Job های Databricks Setup Job Cluster To Run Databricks Job
زمان‌بندی نوت بوک بارگذاری قیمت‌گذاری روزانه Scheduling Daily Pricing Ingestion Notebook
پیکربندی جدول خارجی برای داده‌های قیمت‌گذاری روزانه در لایه برنز External Table Configuration For Daily Pricing Data In Bronze Layer
سوالات مصاحبه آزمایشی Mock Interview Questions

بارگذاری داده‌های منبع از جداول پایگاه داده با استفاده از PySpark Ingest Source Data From Database Tables Using PYSPARK

مرور کلی بارگذاری داده‌های منبع جداول پایگاه داده Database Tables Source Data Ingestion Overview
پیکربندی Reader پایگاه داده PySpark PySpark Database Reader Configuration
ماژولار کردن کد Modularize Code
پیکربندی Writer پایگاه داده PySpark PySpark Database Writer Configuration
پیکربندی Job - بارگذاری داده‌های منبع پایگاه داده Database Source Data Ingestion - Job Configuration
سوالات مصاحبه آزمایشی Mock Interview Questions

تبدیل لایه نقره‌ای - پیکربندی فایل‌های Parquet و جداول دلتا با استفاده از Spark SQL Silver Layer Transformation - Parquet Files & Delta Table Config Using Spark SQL

مرور کلی پردازش فایل‌های Parquet و جداول دلتا Parquet Files And Delta Table Processing Overview
تبدیل لایه نقره‌ای - خواندن جدول منبع با Spark SQL Silver Layer Transformation - Spark SQL Read Source Table
ایجاد جدول Delta Lake Delta Lake Table Creation
تبدیلات لایه نقره‌ای و بارگذاری جدول دلتا Silver Layer Transformations & Loading Delta Table
مرور کلی کپچر تغییر داده (CDC) Change Data Capture(CDC) Overview
کپچر تغییر داده (CDC) - ثبت آخرین مقدار تاریخ و زمان پردازش شده Change Data Capture(CDC) - Capture Last Processed DateTime Value
کپچر تغییر داده - شناسایی رکوردهای جدید با استفاده از آخرین مقدار تاریخ و زمان پردازش شده Change Data Capture - Identify New Records Using Last Processed DateTime Value
بازنویسی نوت بوک تبدیل لایه نقره‌ای Refactor Sliver Layer Transformation Notebook
زمان‌بندی Job - تبدیل لایه نقره‌ای Silver Layer Transformation - Job Scheduling
سوالات مصاحبه آزمایشی Mock Interview Questions

مدل‌سازی داده‌های ابعادی (اسکیما ستاره‌ای) - طراحی پایگاه داده گزارش‌دهی Dimensional Data Modelling (Star Schema) - Reporting Database Design

مرور کلی مدل‌سازی داده‌های ابعادی Dimensional Data Modelling Overview
مرور کلی داده‌های منبع مدل‌سازی داده‌های ابعادی Dimensional Data Modelling - Source Data Overview
مدل‌سازی داده‌های ابعادی - شناسایی ستون‌های ابعادی و واقعی Dimensional Data Modelling - Identify Dimension And Fact Columns
مدل‌سازی داده‌های ابعادی - طراحی جداول ابعادی Dimensional Data Modelling - Design Dimension Tables
مدل‌سازی داده‌های ابعادی - طراحی جداول واقعی Dimensional Data Modelling - Design Fact Tables
مدل‌سازی داده‌های ابعادی - مدل داده منطقی در مقابل فیزیکی Dimensional Data Modelling - Logical Vs Physical Data Model
مدل‌سازی داده‌های ابعادی - ایجاد جداول گزارش‌دهی فیزیکی Dimensional Data Modelling - Create Physical Reporting Tables
سوالات مصاحبه آزمایشی Mock Interview Questions

بارگذاری جداول ابعادی گزارش‌دهی (انواع SCD 1 و 2) و جداول واقعی با استفاده از Spark SQL Reporting Dimension(SCD Types 1 & 2 ) And Fact Tables Load Using Spark SQL

مرور کلی بارگذاری جداول ابعادی و واقعی گزارش‌دهی Reporting Dimension And Fact Tables Load Overview
بارگذاری جدول ابعادی - انتخاب رکوردهای منحصر به فرد Dimension Table Load - Select Unique Records
بارگذاری جدول ابعادی - تولید کلیدهای جایگزین Dimension Table Load - Generate Surrogate Keys
بارگذاری جدول ابعادی - کپچر تغییر داده (CDC) Dimension Table Load - Change Data Capture(CDC)
بارگذاری جدول ابعادی - بارگذاری جدول REPORTING_DIM_STATE_GOLD Dimension Table Load - Load REPORTING_DIM_STATE_GOLD Table
بارگذاری جداول ابعادی - پر کردن تمام جداول ابعادی در لایه طلایی Dimension Tables Load - Populate All Dimension Tables In Gold Layer
پردازش جدول ابعادی DATE DATE Dimension Table Processing
بارگذاری جدول واقعی REPORTING_FACT_DAILY_PRICING_GOLD Fact Table REPORTING_FACT_DAILY_PRICING_GOLD Load
مرور کلی بارگذاری جداول ابعادی که به آرامی تغییر می‌کنند (SCD) - پردازش انواع SCD 1 و 2 Slowly Changing Dimension (SCD) Tables Load - SCD TYPE 1 & 2 Processing Overview
پردازش SCD نوع ۱ - قسمت ۱ SCD TYPE1 Processing - Take 1
پردازش SCD نوع ۱ - قسمت ۲ SCD TYPE1 Processing - Take 2
مرور کلی پردازش SCD نوع ۲ SCD TYPE2 Processing Overview
پردازش SCD نوع ۲ - قسمت ۱ SCD TYPE2 Processing - Take 1
پردازش SCD نوع ۲ - قسمت ۲ SCD TYPE2 Processing - Take 2
پردازش SCD نوع ۲ - قسمت ۳ SCD TYPE2 Processing - Take 3
زمان‌بندی بارگذاری جداول ابعادی و واقعی گزارش‌دهی Scheduling Reporting Dimension And Fact Tables Load
سوالات مصاحبه آزمایشی Mock Interview Questions

Spark Structured Streaming - پردازش داده‌های بی‌درنگ Spark Structured Streaming - Real Time Data Processing

تولید داده‌های منبع جریانی Streaming Source Data Generation
مرور کلی Spark Structured Streaming Spark Structured Streaming Overview
پیکربندی Reader و Writer در Spark Structured Streaming Spark Structured Streaming Reader and Writer Config
سوالات مصاحبه آزمایشی Mock Interview Questions

مقدمه Delta Live Tables Delta Live Tables Introduction

مرور کلی Delta Live Tables Delta Live Tables Overview
Delta Live Table - ایجاد نمای مادی شده Delta Live Table - Create Materialized View
Delta Live Tables - پیکربندی پایپ‌لاین Delta Live Table Delta Live Tables - Configure Delta Live Table Pipeline
Delta Live Tables - ایجاد جدول منبع جریانی و پیکربندی AUTO LOADER Delta Live Tables - Create Streaming Source Table & Configure AUTO LOADER
Delta Live Tables - تست AUTO LOADER Delta Live Tables - Testing AUTO LOADER
Delta Live Table - ایجاد از Delta Live Table موجود Delta Live Table - Create From Existing Delta Live Table
Delta Live Tables - فعال کردن بررسی کیفیت داده Delta Live Tables - Enable Data Quality Checks
Delta Live Tables - کپچر تغییر داده خودکار (CDC) با استفاده از APPLY CHANGES API Delta Live Tables - Automated Change Data Capture(CDC) Using APPLY CHANGES API
سوالات مصاحبه آزمایشی Mock Interview Questions

بارگذاری لایه برنز DataLake - بارگذاری داده‌های منبع API موقعیت جغرافیایی Datalake Bronze Layer Load - Ingest Geo-Location API Source Data

مرور کلی طراحی DataLake DataLake Design Overview
مرور کلی بارگذاری داده‌های منبع API موقعیت جغرافیایی GeoLocation API Source Data Ingestion Overview
بارگذاری داده‌های API موقعیت جغرافیایی - انجام درخواست API برای تمام بازارها GeoLocation API Data Ingestion - Make API Request For All Markets
بارگذاری داده‌های API موقعیت جغرافیایی - جمع‌آوری داده‌های پاسخ API برای تمام بازارها GeoLocation API Data Ingestion - Collect API Response Data For All Market
اشکال‌زدایی خطا و رفع آن Debugging Error And Fixing The Error
سوالات مصاحبه آزمایشی Mock Interview Questions

تبدیلات لایه نقره‌ای DataLake - تبدیل داده‌های منبع API موقعیت جغرافیایی DataLake Silver Layer Transformations - Transform Geo Location API Source Data

مرور کلی تبدیل داده‌های موقعیت جغرافیایی GeoLocation Data Transformation Overview
تبدیل داده‌های موقعیت جغرافیایی - خواندن داده‌های پیچیده JSON Geolocation Data Transformation - Read Complex JSON Data
تبدیل داده‌های موقعیت جغرافیایی - تبدیل مقادیر آرایه به ردیف با استفاده از EXPLODE Geolocation Data Transformation - Transform Array Values To Rows Using EXPLODE
تبدیل داده‌های موقعیت جغرافیایی - ادغام داده‌های منفجر شده با استفاده از JOIN های DataFrame Geolocation Data Transformation - Integrate Exploded Data Using DataFrame JOINS
تبدیل داده‌های موقعیت جغرافیایی - پاکسازی و آماده‌سازی برای انتشار لایه طلایی Geolocation Data Tranformation - Clean And Ready For Gold Layer Publish
سوالات مصاحبه آزمایشی Mock Interview Questions

بارگذاری لایه برنز DataLake - بارگذاری منبع داده‌های آب و هوایی API Datalake Bronze Layer Load - Ingest Weather-Data API Source

مرور کلی بارگذاری داده‌های منبع API داده‌های آب و هوایی Weather Data API Source Data Ingestion Overview
بارگذاری API داده‌های آب و هوایی - انجام درخواست API برای تمام بازارها Weather Data API Ingestion - Make API Request For All Markets
بارگذاری داده‌های پاسخ API API داده‌های آب و هوایی - بارگذاری داده‌های پاسخ API برای تمام بازارها Weather API Data Ingestion - Ingest API Response Data For All Market
سوالات مصاحبه آزمایشی Mock Interview Questions

تبدیلات لایه نقره‌ای DataLake - تبدیل داده‌های آب و هوایی (تکلیف) DataLake Silver Layer Transformations - Transform Weather Data (ASSIGNMENT)

مرور کلی تخصیص وظیفه پروژه دنیای واقعی Real World Project Task Assignment Overview
نرم‌افزار مدیریت پروژه چابک بی‌درنگ - مرور کلی Confluence JIRA Real Time Agile Project Management Software - Confluence JIRA Overview
پشتیبانی اضافی برای تکمیل تکلیف Extra Support To Complete Assignment

بارگذاری لایه طلایی DataLake - انتشار داده‌های منبع هوش مصنوعی پیش‌بینی قیمت (تکلیف) DataLake Gold Layer Load- Publish Price Prediction AI Source Data (ASSIGNMENT)

مرور کلی تخصیص وظیفه پروژه بی‌درنگ Real Time Project Task Assignment Overview

نظارت و ثبت - Azure Monitor, Log Analytics & اعلان‌های Job Monitoring And Logging - Azure Monitor , Log Analytics & Job Notifications

مرور کلی نظارت و ثبت Monitoring And Logging Overview
دلیل پیکربندی نظارت در پروژه بی‌درنگ Reason For Configuring Monitoring In Real Time Project
دلیل پیکربندی ثبت گسترده در پروژه بی‌درنگ Reason For Configuring Extended Logging In Real Time Project
سناریو و رفع خرابی Job تولید بی‌درنگ Real Time Production Job Failure Scenario And Fixing
تنظیم اعلان‌های Job Databricks برای ارسال خودکار ایمیل هشدار خرابی Job Databricks Job Notifications To Setup Automated Email Alert For Job Failures
Azure Monitor - تنظیمات Metrics و Alerts Azure Monitor - Metrics And Alerts Setup
Azure Log Analytics - فعال کردن ثبت گسترده و پرس‌وجو از جداول لاگ Azure Log Analytics - Enabling Extended Logging & Querying Log Tables
خلاصه ماژول Module Summary

تنظیمات امنیتی - کنترل دسترسی AZURE IAM (RBAC) و مدیر فضای کاری Databricks Security Settings - AZURE IAM(RBAC) Access Control & Databricks WorkSpace Admin

مرور کلی تنظیمات امنیتی Security Settings Overview
کنترل دسترسی Azure IAM - پیکربندی کنترل دسترسی مبتنی بر نقش (RBAC) Azure IAM Access Control - Role Based Access Control(RBAC) Configuration
تنظیمات امنیتی مدیر فضای کاری Databricks Databricks Workspace Admin Security Settings
Azure Key Vault - راه‌اندازی منابع Azure Key Vault - Resource Setup
Azure Key Vault - ذخیره رمزها Azure Key Vault - Storing Secrets
تنظیم دامنه امنیتی Key Vault در Databricks و استفاده از رمزها در نوت بوک Setup Key Vault Security Scope In Databricks& Use Secrets In Notebook
خلاصه ماژول Module Summary

یکپارچه‌سازی مخزن Git برای فضای کاری Databricks Git Repository Integration For Databricks WorkSpace

مرور کلی مخزن Git Git Repository Overview
راه‌اندازی حساب و مخزن GitHub GitHub Account And Repository Setup
یکپارچه‌سازی مخزن GitHub و تنظیم پوشه‌های Git در Databricks GitHub Repository Integration & Setup Git Folders In Databricks
پوشه‌های Git - کار با شاخه‌ها Git Folders - Working With Branches
پوشه‌های Git - کامیت و ادغام (درخواست Pull) کد Git Folders - Committing And Merging(PULL REQUEST) Code
پوشه‌های Git - همکاری با چندین توسعه‌دهنده Git Folders - COLLOBARATIVE Working With Multiple Developers
تکلیف پوشه‌های Git - روش‌های کار با شاخه‌ها Git Folders ASSIGNMENT - Ways Of Working With Branches
خلاصه ماژول Module Summary

پایپ‌لاین CI/CD (یکپارچه‌سازی مداوم / استقرار مداوم) CI/CD (Continuous Integration / Continuous Deployment) Pipeline

مرور کلی فرآیند CI/CD CI_CD Process Overview
راه‌اندازی محیط تولید Setup Production Environment
پیکربندی پایپ‌لاین CI/CD با استفاده از GitHub Actions Configure CI/CD Pipeline Using GitHub Actions
مرور کد پایپ‌لاین CI/CD CI/CD Pipeline Code WalkThrough
تست استقرار خودکار کد پایپ‌لاین CI/CD CI/CD Pipeline Testing Automated Code Deployment
خلاصه ماژول Module Summary

بهینه‌سازی عملکرد Performance Tuning

مرور کلی بهینه‌سازی عملکرد و داخلی اجرای کد کلاستر Spark Performance Tuning Overview & Spark Cluster Code Execution Internals
مرور کلی گزارش‌ها، متریک‌ها و نمودارهای DAG در Spark UI Spark UI Logs , Metrics , DAG Graphs Overview
مشکل عملکرد فایل‌های کوچک - ZORDER BY, OPTIMIZE, AUTO OPTIMIZE, PARTITION Small Files Performance Issue - ZORDER BY , OPTIMIZE , AUTO OPTIMIZE , PARTITION
مشکل مخلوط کردن داده‌ها - BROADCAST & SHUFFLE HASH JOIN, ADAPTIVE QUERY EXECUTION Data Shuffling Issue - BROADCAST & SHUFFLE HASH JOIN , ADAPTIVE QUERY EXECUTION
مشکل سرریز شدن داده‌ها - AUTO OPTIMIZE SHUFFLE (AOS), محاسبه پارتیشن مخلوط کردن Data Spilling Issue - AUTO OPTIMIZE SHUFFLE(AOS) , SHUFFLE PARTITION CALCULATION
مشکل پراکندگی داده‌ها - ADAPTIVE QUERY EXECUTION (AQE), SALTING, HINTS در Spark SQL Data Skewing Issue - ADAPTIVE QUERY EXECUTION(AQE) , SALTING , SPARK SQL HINTS
مشکل انفجار داده‌ها - اندازه پارتیشن مخلوط کردن (وظیفه), REPARTITION Data Explosion Issue - SHUFFLE PARTITION(Task) SIZING , REPARTITION
PREDICATE PUSHDOWN, COLUMN/PARTITION PRUNING, DELTA/SPARK CACHE, LIQUID CLUSTER PREDICATE PUSHDOWN ,COLUMN/PARTITION PRUNING ,DELTA/SPARK CACHE, LIQUID CLUSTER
سوالات مصاحبه آزمایشی Mock Interview Questions

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش دیتا‌بریکس آژور - مهندسی داده با پروژه واقعی در زمان واقعی

جزییات دوره

زمان دوره: 16.5 hours

تعداد ویدیو ها: 171

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 3,010

امتیاز مرجع: 4.6 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Ragunathan Ramanujam

لینک کوتاه این دوره

https://donyad.com/d/4402ca

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

بازاریابی

دیگر

آموزش دیتا‌بریکس آژور - مهندسی داده با پروژه واقعی در زمان واقعی - آخرین آپدیت

دانلود Azure DataBricks - Data Engineering With Real Time Project top rated

پروژه واقعی در داده‌های خرده‌فروشی با PySpark، SQL و Delta Lake

کلیدواژه‌های کلیدی:

آنچه در این دوره خواهید آموخت:

پیش‌نیازها:

مقدمه Introduction

مقدمه Introduction

مقدمه تحلیل داده Data Analytics Introduction

مهندس داده - معرفی نقش شغلی Data Engineer - Job Role Introduction

طراحی معماری پروژه - تعریف ورودی‌ها و خروجی‌ها Project Architecture Design - Define Inputs and Outputs

طراحی معماری پروژه - طراحی Data Lakehouse با استفاده از معماری Medallion Project Architecture Design - Datalakehouse Design Using Medallion Architecture

مبانی Cloud Cloud Fundamentals

راه‌اندازی حساب رایگان Azure Azure Free Account Setup

سوالات مصاحبه آزمایشی Mock Interview Questions

مرور کلی پورتال Azure و ایجاد منابع Azure Azure Portal Overview & Create Azure Resources

مرور کلی پورتال Azure Azure Portal Overview

راه‌اندازی Azure Databricks Azure Databricks-Setup

راه‌اندازی حساب Azure Data Lake Storage Azure DataLake Storage Account-Setup

حساب Azure Data Lake Storage - راه‌اندازی کانتینرها Azure DataLake Storage Account - Containers Setup

سوالات مصاحبه آزمایشی Mock Interview Questions

مقدمه PySpark PySpark Introduction

معماری Apache Spark Apache Spark Architecture

مرور کلی فضای کاری Databricks Databricks Workspace Overview

مرور کلی Notebook ها Notebooks Overview

پیکربندی کلاستر Spark Configure Spark Cluster

مقدمه PySpark - خواندن داده‌های منبع وب به عنوان DataFrame PySpark Introduction - Read Web Source Data As DataFrame

مقدمه PySpark - نوشتن داده‌های منبع وب در DataLake PySpark Introduction - Write Web Source Data in DataLake

پیکربندی اضافی Reader و Writer PySpark PySpark Reader And Writer - Additional Configuration Options

مرور کلی تبدیل‌های DataFrame در PySpark Pyspark DataFrame Transformations Overview

توابع تبدیل DataFrame در PySpark Pyspark DataFrame Transformation Functions

توابع اکشن DataFrame در PySpark Pyspark DataFrame Action Functions

تبدیلات و اکشن‌های اضافی DataFrame در PySpark Pyspark DataFrame Additional Transformations & Actions

توابع تجمیع DataFrame در PySpark Pyspark DataFrame Aggregation Functions

مدیریت مقادیر تاریخ و زمان در DataFrame با PySpark PySpark DataFrame Date And Time Values Handling

مرور کلی ابزارهای Databricks - dbutils Databricks Utilities - dbutils Overview

سوالات مصاحبه آزمایشی Mock Interview Questions

مقدمه SparkSQL SparkSQL Introduction

مقدمه Spark SQL Spark SQL - Introduction

تبدیل DataFrame های Spark به جداول SQL و بالعکس Spark DataFrames To SQL Tables Conversions & Vice Versa

ایجاد و پردازش جداول مدیریت شده Spark SQL Spark SQL - Managed Tables Creation & Processing

ایجاد و پردازش جداول خارجی Spark SQL Spark SQL External Tables Creation & Processing

توابع تبدیل داده در Spark SQL Spark SQL - Data Transformations Functions

توابع مدیریت تاریخ و زمان در Spark SQL Spark SQL - DataTime Handling Functions

سوالات مصاحبه آزمایشی Mock Interview Questions

پیکربندی Unity Catalog Unity Catalogue Configuration

مرور کلی Unity Catalog Unity Catalogue Overview

راهنمای گام به گام پیکربندی پیش‌فرض Unity Catalog Default Unity Catalogue Configuration Walkthrough

پیکربندی Unity Catalog خاص پروژه Configure Project Specific Unity Catalogue

مرحله ۱ - ایجاد کانکتور دسترسی جدید Databricks Step 1 - Create New Databricks Access Connector

مرحله ۲ - تنظیم دسترسی کانکتور دسترسی Databricks بر روی حساب ذخیره‌سازی DataLake Step 2 - Setup Databricks Access Connector Access On DataLake Storage Account

مرحله ۳ - ثبت کانکتور دسترسی Databricks در کاتالوگ فضای کاری Step 3 - Register Databricks Access Connector In WorkSpace Catalogue

مرحله ۴ - اتصال (Mount) مسیرهای کانتینر ذخیره‌سازی DataLake Step 4 - Link(Mount) DataLake Storage Containers Paths

مرحله ۵ - پیکربندی مکان ذخیره‌سازی برای اشیاء Unity Catalog Step 5 - Configure Storage Location For Unity Catalogue Objects

مرحله ۶ - ایجاد Unity Catalog خاص پروژه Step 6 - Create Project Specific Unity Catalogue

سوالات مصاحبه آزمایشی Mock Interview Questions

بارگذاری داده‌های منبع از سرویس وب (HTTP) به لایه برنز با استفاده از PySpark Ingest Source Data From Web(HTTP) Service Into Bronze Layer Using PYSPARK

مرور کلی بارگذاری داده‌های منبع وب HTTP HTTP Web Source Data Ingestion Overview

ماژولار کردن کد Modularize Code

خواندن داده‌های منبع وب و بارگذاری در لایه برنز Read Web Source Data & Ingest In Bronze Layer

پیکربندی پارامترهای نوت بوک Databricks Databricks Notebook Parameters Configuration

مرور کلی بارگذاری افزایشی Incremental Load Overview

پیاده‌سازی بارگذاری افزایشی - ذخیره تاریخ فایل‌های پردازش شده منبع Incremental Load Implementation - Store Processed Source File Dates

پیاده‌سازی بارگذاری افزایشی - خودکارسازی تاریخ فایل منبع بعدی برای پردازش Incremental Load Implementation - Automate Next Source File Date To Be Processed

بازنویسی نوت بوک بارگذاری Refactor Ingestion Notebook

اشکال‌زدایی کد و رفع خطاها Debugging Code & Fixing Errors

مرور کلی گردش کارها و Job های Databricks Databricks Workflows & Jobs Overview

راه‌اندازی Job Cluster برای اجرای Job های Databricks Setup Job Cluster To Run Databricks Job

زمان‌بندی نوت بوک بارگذاری قیمت‌گذاری روزانه Scheduling Daily Pricing Ingestion Notebook

پیکربندی جدول خارجی برای داده‌های قیمت‌گذاری روزانه در لایه برنز External Table Configuration For Daily Pricing Data In Bronze Layer

سوالات مصاحبه آزمایشی Mock Interview Questions

بارگذاری داده‌های منبع از جداول پایگاه داده با استفاده از PySpark Ingest Source Data From Database Tables Using PYSPARK

مرور کلی بارگذاری داده‌های منبع جداول پایگاه داده Database Tables Source Data Ingestion Overview

پیکربندی Reader پایگاه داده PySpark PySpark Database Reader Configuration

ماژولار کردن کد Modularize Code

پیکربندی Writer پایگاه داده PySpark PySpark Database Writer Configuration

پیکربندی Job - بارگذاری داده‌های منبع پایگاه داده Database Source Data Ingestion - Job Configuration

سوالات مصاحبه آزمایشی Mock Interview Questions