🔔 با توجه به بهبود نسبی اینترنت، آمادهسازی دورهها آغاز شده است. به دلیل تداوم برخی اختلالات، بارگذاری دورهها ممکن است با کمی تأخیر انجام شود. مدت اشتراکهای تهیهشده محفوظ است.
لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش دیتابریکس آژور - مهندسی داده با پروژه واقعی در زمان واقعی
- آخرین آپدیت
دانلود Azure DataBricks - Data Engineering With Real Time Project
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
پروژه واقعی در دادههای خردهفروشی با PySpark، SQL و Delta Lake
یادگیری عملی و جامع معماری Medallion، مدلسازی دادههای ابعادی، طراحی Delta Lakehouse، معماری Spark Core، راهاندازی Unity Catalog و بهینهسازی عملکرد با PySpark.
کلیدواژههای کلیدی:
پروژه واقعی داده خردهفروشی
PySpark برای مهندسی داده
SQL در Databricks
Delta Lake و Delta Live Tables
Unity Catalog در Databricks
AutoLoader برای بارگذاری خودکار داده
بهینهسازی عملکرد Spark
معماری Medallion
مدلسازی ابعادی
طراحی Delta Lakehouse
معماری Spark Core
راهاندازی Unity Catalog
راهاندازی کلاستر Spark
PySpark DataFrame Reader و Writer
توابع تبدیل و اقدام در PySpark
توابع تاریخ و زمان در PySpark
توابع تجمیع (Aggregation)
ادغام DataFrames (Joins)
دادههای پیچیده (Complex Data)
جداول خارجی Spark SQL
جداول مدیریت شده Spark SQL
جداول Delta Lake
اسکریپت CTAS (Create Table As)
نماهای موقت (Temp Views)
ادغام جداول (Table Joins)
خطوط لوله پردازش داده (Data Transformation Pipelines)
این دوره جامع، شما را برای نقشهای کلیدی مهندسی داده در پروژههای واقعی آماده میکند:
طراحی و پیکربندی Unity Catalog برای کنترل دسترسی بهتر و اتصال به مخازن داده خارجی.
طراحی و توسعه نوتبوکهای Databricks (PySpark) برای استخراج داده از خدمات وب (HTTP).
طراحی و توسعه نوتبوکهای Databricks (PySpark) برای استخراج داده از پایگاههای داده SQL.
طراحی و توسعه نوتبوکهای Databricks (PySpark) برای استخراج داده از سیستمهای منبع API.
طراحی و توسعه جداول خارجی و مدیریت شده Spark SQL در Databricks.
ایجاد و پر کردن جداول Delta Lake با استفاده از نوتبوکهای Databricks Spark SQL.
پر کردن جداول ابعادی گزارشدهی با کد Databricks SQL.
پر کردن جداول ابعادی گزارشدهی با پشتیبانی از SCD Type 2 با کد Databricks SQL.
پر کردن جدول فاکت گزارشدهی با کد Databricks SQL.
پردازش و مسطحسازی دادههای نیمهساختاریافته JSON با استفاده از تابع EXPLODE با PySpark.
ادغام دادهها و بارگذاری آنها در لایه Gold DataLake با استفاده از PySpark.
پردازش دادههای نیمهساختاریافته JSON در لایه Silver DataLake با استفاده از PySpark.
ادغام دادهها و بارگذاری آنها در لایه Gold DataLake با استفاده از Databricks SQL.
توسعه شغلهای Databricks برای زمانبندی نوتبوکهای استخراج و تبدیل داده.
طراحی و پیکربندی Delta Live Tables برای ادغام یکپارچه داده در تمام لایهها.
راهاندازی Azure Monitor و Log Analytics برای نظارت خودکار اجراهای شغلی و جزئیات گزارشهای افزوده.
راهاندازی Azure Key Vault و پیکربندی Key Vault Backed Secret Scopes در فضای کاری Databricks.
پیکربندی مخازن GitHub و ایجاد پوشههای Git Repo در فضای کاری Databricks.
طراحی و پیکربندی خطوط لوله CI/CD برای انتشار کد در چندین محیط.
شناسایی گلوگاههای عملکرد و انجام تنظیمات عملکرد با استفاده از تکنیکهایی مانند ZORDER BY، BROADCAST JOIN، ADAPTIVE QUERY EXECUTION، DATA SALTING و LIQUID CLUSTERING.
پیشنیازها:
این دوره شامل تمامی مهارتهای پایه پایتون و SQL مورد نیاز برای توسعه کد است.
سرفصل ها و درس ها
مقدمه
Introduction
مقدمه
Introduction
مقدمه تحلیل داده
Data Analytics Introduction
مهندس داده - معرفی نقش شغلی
Data Engineer - Job Role Introduction
طراحی معماری پروژه - تعریف ورودیها و خروجیها
Project Architecture Design - Define Inputs and Outputs
طراحی معماری پروژه - طراحی Data Lakehouse با استفاده از معماری Medallion
Project Architecture Design - Datalakehouse Design Using Medallion Architecture
مبانی Cloud
Cloud Fundamentals
راهاندازی حساب رایگان Azure
Azure Free Account Setup
سوالات مصاحبه آزمایشی
Mock Interview Questions
مرور کلی پورتال Azure و ایجاد منابع Azure
Azure Portal Overview & Create Azure Resources
پیکربندی Unity Catalog خاص پروژه
Configure Project Specific Unity Catalogue
مرحله ۱ - ایجاد کانکتور دسترسی جدید Databricks
Step 1 - Create New Databricks Access Connector
مرحله ۲ - تنظیم دسترسی کانکتور دسترسی Databricks بر روی حساب ذخیرهسازی DataLake
Step 2 - Setup Databricks Access Connector Access On DataLake Storage Account
مرحله ۳ - ثبت کانکتور دسترسی Databricks در کاتالوگ فضای کاری
Step 3 - Register Databricks Access Connector In WorkSpace Catalogue
مرور کلی بارگذاری افزایشی
Incremental Load Overview
پیادهسازی بارگذاری افزایشی - ذخیره تاریخ فایلهای پردازش شده منبع
Incremental Load Implementation - Store Processed Source File Dates
پیادهسازی بارگذاری افزایشی - خودکارسازی تاریخ فایل منبع بعدی برای پردازش
Incremental Load Implementation - Automate Next Source File Date To Be Processed
پیکربندی جدول خارجی برای دادههای قیمتگذاری روزانه در لایه برنز
External Table Configuration For Daily Pricing Data In Bronze Layer
سوالات مصاحبه آزمایشی
Mock Interview Questions
بارگذاری دادههای منبع از جداول پایگاه داده با استفاده از PySpark
Ingest Source Data From Database Tables Using PYSPARK
مرور کلی بارگذاری دادههای منبع جداول پایگاه داده
Database Tables Source Data Ingestion Overview
پیکربندی Reader پایگاه داده PySpark
PySpark Database Reader Configuration
ماژولار کردن کد
Modularize Code
پیکربندی Writer پایگاه داده PySpark
PySpark Database Writer Configuration
پیکربندی Job - بارگذاری دادههای منبع پایگاه داده
Database Source Data Ingestion - Job Configuration
سوالات مصاحبه آزمایشی
Mock Interview Questions
تبدیل لایه نقرهای - پیکربندی فایلهای Parquet و جداول دلتا با استفاده از Spark SQL
Silver Layer Transformation - Parquet Files & Delta Table Config Using Spark SQL
مرور کلی پردازش فایلهای Parquet و جداول دلتا
Parquet Files And Delta Table Processing Overview
تبدیل لایه نقرهای - خواندن جدول منبع با Spark SQL
Silver Layer Transformation - Spark SQL Read Source Table
مرور کلی کپچر تغییر داده (CDC)
Change Data Capture(CDC) Overview
کپچر تغییر داده (CDC) - ثبت آخرین مقدار تاریخ و زمان پردازش شده
Change Data Capture(CDC) - Capture Last Processed DateTime Value
کپچر تغییر داده - شناسایی رکوردهای جدید با استفاده از آخرین مقدار تاریخ و زمان پردازش شده
Change Data Capture - Identify New Records Using Last Processed DateTime Value
مدلسازی دادههای ابعادی (اسکیما ستارهای) - طراحی پایگاه داده گزارشدهی
Dimensional Data Modelling (Star Schema) - Reporting Database Design
مرور کلی مدلسازی دادههای ابعادی
Dimensional Data Modelling Overview
مرور کلی دادههای منبع مدلسازی دادههای ابعادی
Dimensional Data Modelling - Source Data Overview
مدلسازی دادههای ابعادی - شناسایی ستونهای ابعادی و واقعی
Dimensional Data Modelling - Identify Dimension And Fact Columns
مدلسازی دادههای ابعادی - طراحی جداول ابعادی
Dimensional Data Modelling - Design Dimension Tables
مدلسازی دادههای ابعادی - طراحی جداول واقعی
Dimensional Data Modelling - Design Fact Tables
مدلسازی دادههای ابعادی - مدل داده منطقی در مقابل فیزیکی
Dimensional Data Modelling - Logical Vs Physical Data Model
مدلسازی دادههای ابعادی - ایجاد جداول گزارشدهی فیزیکی
Dimensional Data Modelling - Create Physical Reporting Tables
سوالات مصاحبه آزمایشی
Mock Interview Questions
بارگذاری جداول ابعادی گزارشدهی (انواع SCD 1 و 2) و جداول واقعی با استفاده از Spark SQL
Reporting Dimension(SCD Types 1 & 2 ) And Fact Tables Load Using Spark SQL
مرور کلی بارگذاری جداول ابعادی و واقعی گزارشدهی
Reporting Dimension And Fact Tables Load Overview
بارگذاری جدول ابعادی - انتخاب رکوردهای منحصر به فرد
Dimension Table Load - Select Unique Records
مرور کلی بارگذاری جداول ابعادی که به آرامی تغییر میکنند (SCD) - پردازش انواع SCD 1 و 2
Slowly Changing Dimension (SCD) Tables Load - SCD TYPE 1 & 2 Processing Overview
پردازش SCD نوع ۱ - قسمت ۱
SCD TYPE1 Processing - Take 1
پردازش SCD نوع ۱ - قسمت ۲
SCD TYPE1 Processing - Take 2
مرور کلی پردازش SCD نوع ۲
SCD TYPE2 Processing Overview
پردازش SCD نوع ۲ - قسمت ۱
SCD TYPE2 Processing - Take 1
پردازش SCD نوع ۲ - قسمت ۲
SCD TYPE2 Processing - Take 2
پردازش SCD نوع ۲ - قسمت ۳
SCD TYPE2 Processing - Take 3
زمانبندی بارگذاری جداول ابعادی و واقعی گزارشدهی
Scheduling Reporting Dimension And Fact Tables Load
سوالات مصاحبه آزمایشی
Mock Interview Questions
Spark Structured Streaming - پردازش دادههای بیدرنگ
Spark Structured Streaming - Real Time Data Processing
تولید دادههای منبع جریانی
Streaming Source Data Generation
مرور کلی Spark Structured Streaming
Spark Structured Streaming Overview
پیکربندی Reader و Writer در Spark Structured Streaming
Spark Structured Streaming Reader and Writer Config
سوالات مصاحبه آزمایشی
Mock Interview Questions
مقدمه Delta Live Tables
Delta Live Tables Introduction
مرور کلی Delta Live Tables
Delta Live Tables Overview
Delta Live Table - ایجاد نمای مادی شده
Delta Live Table - Create Materialized View
Delta Live Tables - پیکربندی پایپلاین Delta Live Table
Delta Live Tables - Configure Delta Live Table Pipeline
Delta Live Tables - ایجاد جدول منبع جریانی و پیکربندی AUTO LOADER
Delta Live Tables - Create Streaming Source Table & Configure AUTO LOADER
Delta Live Tables - تست AUTO LOADER
Delta Live Tables - Testing AUTO LOADER
Delta Live Table - ایجاد از Delta Live Table موجود
Delta Live Table - Create From Existing Delta Live Table
Delta Live Tables - فعال کردن بررسی کیفیت داده
Delta Live Tables - Enable Data Quality Checks
Delta Live Tables - کپچر تغییر داده خودکار (CDC) با استفاده از APPLY CHANGES API
Delta Live Tables - Automated Change Data Capture(CDC) Using APPLY CHANGES API
سوالات مصاحبه آزمایشی
Mock Interview Questions
بارگذاری لایه برنز DataLake - بارگذاری دادههای منبع API موقعیت جغرافیایی
Datalake Bronze Layer Load - Ingest Geo-Location API Source Data
مرور کلی طراحی DataLake
DataLake Design Overview
مرور کلی بارگذاری دادههای منبع API موقعیت جغرافیایی
GeoLocation API Source Data Ingestion Overview
بارگذاری دادههای API موقعیت جغرافیایی - انجام درخواست API برای تمام بازارها
GeoLocation API Data Ingestion - Make API Request For All Markets
بارگذاری دادههای API موقعیت جغرافیایی - جمعآوری دادههای پاسخ API برای تمام بازارها
GeoLocation API Data Ingestion - Collect API Response Data For All Market
اشکالزدایی خطا و رفع آن
Debugging Error And Fixing The Error
سوالات مصاحبه آزمایشی
Mock Interview Questions
تبدیلات لایه نقرهای DataLake - تبدیل دادههای منبع API موقعیت جغرافیایی
DataLake Silver Layer Transformations - Transform Geo Location API Source Data
مرور کلی تبدیل دادههای موقعیت جغرافیایی
GeoLocation Data Transformation Overview
تبدیل دادههای موقعیت جغرافیایی - خواندن دادههای پیچیده JSON
Geolocation Data Transformation - Read Complex JSON Data
تبدیل دادههای موقعیت جغرافیایی - تبدیل مقادیر آرایه به ردیف با استفاده از EXPLODE
Geolocation Data Transformation - Transform Array Values To Rows Using EXPLODE
تبدیل دادههای موقعیت جغرافیایی - ادغام دادههای منفجر شده با استفاده از JOIN های DataFrame
Geolocation Data Transformation - Integrate Exploded Data Using DataFrame JOINS
تبدیل دادههای موقعیت جغرافیایی - پاکسازی و آمادهسازی برای انتشار لایه طلایی
Geolocation Data Tranformation - Clean And Ready For Gold Layer Publish
سوالات مصاحبه آزمایشی
Mock Interview Questions
بارگذاری لایه برنز DataLake - بارگذاری منبع دادههای آب و هوایی API
Datalake Bronze Layer Load - Ingest Weather-Data API Source
مرور کلی بارگذاری دادههای منبع API دادههای آب و هوایی
Weather Data API Source Data Ingestion Overview
بارگذاری API دادههای آب و هوایی - انجام درخواست API برای تمام بازارها
Weather Data API Ingestion - Make API Request For All Markets
بارگذاری دادههای پاسخ API API دادههای آب و هوایی - بارگذاری دادههای پاسخ API برای تمام بازارها
Weather API Data Ingestion - Ingest API Response Data For All Market
سوالات مصاحبه آزمایشی
Mock Interview Questions
تبدیلات لایه نقرهای DataLake - تبدیل دادههای آب و هوایی (تکلیف)
DataLake Silver Layer Transformations - Transform Weather Data (ASSIGNMENT)
مرور کلی تخصیص وظیفه پروژه دنیای واقعی
Real World Project Task Assignment Overview
نرمافزار مدیریت پروژه چابک بیدرنگ - مرور کلی Confluence JIRA
Real Time Agile Project Management Software - Confluence JIRA Overview
پشتیبانی اضافی برای تکمیل تکلیف
Extra Support To Complete Assignment
بارگذاری لایه طلایی DataLake - انتشار دادههای منبع هوش مصنوعی پیشبینی قیمت (تکلیف)
DataLake Gold Layer Load- Publish Price Prediction AI Source Data (ASSIGNMENT)
مرور کلی تخصیص وظیفه پروژه بیدرنگ
Real Time Project Task Assignment Overview
مرور کلی بهینهسازی عملکرد و داخلی اجرای کد کلاستر Spark
Performance Tuning Overview & Spark Cluster Code Execution Internals
مرور کلی گزارشها، متریکها و نمودارهای DAG در Spark UI
Spark UI Logs , Metrics , DAG Graphs Overview
مشکل عملکرد فایلهای کوچک - ZORDER BY, OPTIMIZE, AUTO OPTIMIZE, PARTITION
Small Files Performance Issue - ZORDER BY , OPTIMIZE , AUTO OPTIMIZE , PARTITION
مشکل سرریز شدن دادهها - AUTO OPTIMIZE SHUFFLE (AOS), محاسبه پارتیشن مخلوط کردن
Data Spilling Issue - AUTO OPTIMIZE SHUFFLE(AOS) , SHUFFLE PARTITION CALCULATION
نمایش نظرات