دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش بوت‌کمپ مهندسی داده: SQL، ETL، PySpark و AWS (پروژه‌محور) - آخرین آپدیت

دانلود Data Engineering Bootcamp: SQL, ETL, PySpark & AWS(Hands-on)

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: ساخت خط لوله‌های ETL با پروژه‌های واقعی گام به گام درک مفاهیم بنیادی مهندسی داده مدرن ساخت و مدیریت دریاچه‌های داده (Data Lakes) مقیاس‌پذیر روی AWS S3 طراحی مدل‌های داده Star Schema با جداول Fact و Dimension پیاده‌سازی ابعاد با تغییرات کند (SCD1 و SCD2) توسعه خط لوله‌های ETL با استفاده از PySpark همراه با بررسی کیفیت داده‌ها پرس‌وجو و تحلیل دریاچه‌های داده با AWS Athena و Glue Catalog اتوماسیون گردش‌های کاری و خط لوله‌ها با استفاده از Apache Airflow ساخت پلاگین‌های سفارشی Airflow برای مدیریت جاب‌های EMR Spark به‌کارگیری الگوی WAP (Write-Audit-Publish) برای خط لوله‌های عملیاتی پیاده‌سازی چارچوب‌های کیفیت داده و قراردادهای داده (Data Contracts) استقرار و مانیتورینگ خط لوله‌های داده روی AWS EMR بهینه‌سازی جریان‌های کاری داده از نظر هزینه، عملکرد و قابلیت اطمینان کسب تجربه عملی با کاربردهای واقعی آمادگی برای مصاحبه‌های شغلی مهندسی داده با اعتماد به نفس کامل پیشنیازها: دانش پایه SQL و پایتون آشنایی با Docker و اسکریپت‌نویسی Bash مزیت محسوب می‌شود

تسلط بر هسته مهندسی داده مدرن –ساخت خط لوله‌های واقعی با Airflow، AWS، Spark و Python.

اولین قدم خود را در مسیر مهندسی دادهبردارید و آینده شغلی خود را با این بوت‌کمپ عملی و پروژه‌محورکه بر اساس تکنولوژی‌های مدرن داده (Modern Data Stack)طراحی شده است، تضمین کنید.

این دوره توسط یک معمار ارشد داده با بیش از ۱۲ سال تجربه عملیتدریس شده و ترکیبی از تئوری و عمل است تا به شما کمک کند سیستم‌های داده مقیاس‌پذیرمشابه شرکت‌های برتر تکنولوژی را طراحی، ساخته و مدیریت کنید.

چه یک مهندس داده آینده، توسعه‌دهنده نرم‌افزار یا تحلیل‌گرباشید، این دوره شما را در ساخت خط لوله‌های داده در سطح سازمانیاز صفر، از طریق یک پروژه واقعی اپلیکیشن تاکسی آنلاینکه چالش‌های واقعی داده را شبیه‌سازی می‌کند، راهنمایی می‌کند.

آنچه خواهید آموخت

شما تخصص عملیدر حیاتی‌ترین اجزای مهندسی داده را کسب خواهید کرد:

بخش ۱: آماده‌سازی محیط و مفاهیم

درک Modern Data Stackو معماری‌های داده در دنیای واقعی
یادگیری نحوه جریان داده بین سیستم‌هادر شرکت‌های داده‌محور
راه‌اندازی زیربنای پروژه با سناریوی یک اپلیکیشن تاکسی آنلاین

بخش ۲: ضروریات دریاچه داده (Data Lake)

ساخت دریاچه‌های داده مقیاس‌پذیر روی AWS S3با رعایت بهترین متدها
تسلط بر معماری S3، پارتیشن‌بندی و تکامل شمای داده‌ها
پیاده‌سازی IAM، رمزنگاری و مدیریت چرخه عمر داده‌ها
کار عملی با APIهای Boto3 S3برای اتوماسیون

بخش ۳: مدل‌سازی داده‌ها

طراحی مدل‌های ابعادی (Star Schema)برای تحلیل داده‌ها
پیاده‌سازی ابعاد با تغییرات کند (SCD Type 1 & 2)
ساخت جامع خط لوله‌های ETL و دیتا مارت‌ها (Data Marts)

بخش ۴: چارچوب‌های کیفیت داده

یادگیری نحوه تضمین دقت، کامل بودن و سازگاری داده‌ها
پیاده‌سازی اعتبارسنجی داده‌ها و قراردادهای داده
استفاده از استانداردهای صنعت برای حفظ اعتماد به داده‌ها

بخش ۵: AWS Athena

پرس‌وجو در مجموعه‌داده‌های عظیم با AWS Athena(موتور SQL بدون سرور)
یادگیری DDL، Glue Catalog، گروه‌های کاری و اتوماسیون با Boto3
مقایسه Athena، Presto و Trino
به‌کارگیری استراتژی‌های بهینه‌سازی برای افزایش عملکرد

بخش ۶: Apache Spark روی AWS EMR

ساخت خط لوله‌های PySparkمقیاس‌پذیر با الگوی Write-Audit-Publish (WAP)
درک معماری Spark و APIهای آن
اجرای جاب‌های Spark در سطح عملیاتیروی AWS EMR
به‌کارگیری UDFها و بررسی‌های کیفیت دادهدر تبدیلات

بخش ۷: ارکستراسیون با Apache Airflow

تسلط بر مدیریت جریان‌های کاری (Orchestration)با استفاده از Apache Airflow
طراحی DAGها، مدیریت وابستگی‌ها و زمان‌بندی جاب‌ها
اتوماسیون جاب‌های Spark با استفاده از یک پلاگین سفارشی AWS EMR
ساخت راهکارهای ارکستراسیون قابل اعتماد و بازقابل‌استفاده

آنچه خواهید ساخت

در پایان دوره، شما پلتفرم داده‌ای در سطح عملیاتیبرای یک شرکت تاکسی آنلاین خواهید ساخت که شامل موارد زیر است:

یک دریاچه داده (Data Lake)روی AWS S3
مدل داده ابعادیبا منطق SCD
خط لوله‌های ETL بر پایه PySpark
ارکستراسیون خودکاربا Airflow
لایه پرس‌وجو (Query layer)قدرت گرفته از Athena
چارچوب کیفیت دادهبرای اعتبارسنجی و مانیتورینگ

این دوره برای چه کسانی است

علاقمندان به مهندسی دادهو توسعه‌دهندگان ETL
تحلیل‌گران یا مهندسان نرم‌افزارکه قصد ورود به نقش‌های داده‌ای را دارند
هر کسی که مشتاق ساخت سیستم‌های داده مقیاس‌پذیرروی ابری است

چرا از من یاد بگیرید

من andalib ansariهستم، معمار دادهبا بیش از ۱۲ سال تجربه در طراحی و پیاده‌سازی پلتفرم‌های داده و راهکارهای تحلیلیدر صنایع مختلف. هدف من این است که شما را در مهارت‌های عملی مهندسی داده، و نه فقط تئوری، به درجه‌ای از اعتماد به نفس برسانم.

همین حالا ثبت‌نام کنید

از کد تخفیف DEBS12025 برای قیمت ویژه استفاده کنید. اولین قدم را در مسیر مهندسی دادهبردارید و از همین امروز ساخت خط لوله‌های داده واقعیخود را شروع کنید!

سرفصل ها و درس ها

آماده‌سازی محیط و مفاهیم Context Setup

معارفه و شروع دوره Student Onboarding
درک منابع داده Understanding Data Sources
معماری Modern Data Stack Modern Data Stack Architecture
نصبات و پیکربندی Installations & Setup

ضروریات دریاچه داده Data Lake Essentials

معماری S3 S3 Architecture
آزمایشگاه ۱: باکت‌ها و پیشوندها Lab 1 - Buckets and Prefixes
لایه‌ها در دریاچه داده Layers in Data Lake
پارتیشن‌بندی داده‌ها در دریاچه داده Data Partitioning in Data Lake
آزمایشگاه ۲: پارتیشن‌بندی داده‌ها Lab 2 - Data Partitioning
فرمت‌های فایل File Formats
تکامل شمای داده (Schema Evolution) Schema Evolution
متااستور (Metastore) Metastore
آزمایشگاه ۳: نسخه‌بندی و بازگشت (Rollback) Lab 3 - Versioning and Rollback
کلاس‌های ذخیره‌سازی S3 S3 Storage Classes
رویدادهای S3 S3 Events
آزمایشگاه ۴: اعلان‌های رویداد Lab 4 - Event Notifications
امنیت داده‌ها Data Security
S3 IAM و ACLها S3 IAM and ACLs
مدیریت چرخه عمر داده‌ها Data Lifecycle Management
آزمایشگاه ۵: چرخه عمر داده Lab 5- Data Lifecycle
پشتیبان‌گیری و بازیابی پس از حادثه Backup and Disaster Recovery
میتادیتای S3 S3 Metadata
S3 Storage Lens S3 Storage Lens
آزمایشگاه ۶: Storage Lens Lab 6 - Storage Lens
آزمایشگاه ۷: APIهای Boto3 S3 Lab 7 - Boto3 S3 APIs

مدل‌سازی داده‌ها Data Modeling

مقدمه‌ای بر مدل‌سازی داده‌ها Introductions to Data Modeling
انواع مدل‌های داده Types of Data Model
مدل‌سازی ابعادی: SCD1 و SCD2 Dimension Modeling - SCD1, SCD2
مدل‌سازی Fact Fact Modeling
دیتا مارت‌ها (Datamarts) Datamarts
آزمایشگاه ۱: SCD نوع ۱ Lab 1- SCD Type 1
آزمایشگاه ۲: SCD نوع ۲ Lab 2 - SCD Type 2
آزمایشگاه ۳: مدل‌سازی Fact Lab 3 - Fact Modeling

کیفیت داده Data Quality

مقدمه‌ای بر کیفیت داده Introductions to Data Quality
انواع کیفیت داده Types of Data Quality
ابزارهای DQC DQC Tools
قراردادهای داده (Data Contracts) Data Contracts
آزمایشگاه ۱: DQC Lab 1 - DQC

آتنا (Athena) Athena

مقایسه PrestoDB در برابر Trino و Athena PrestoDB vs Trino vs Athena
آزمایشگاه ۱: DDL و Glue Catalog Lab 1 - DDL & Glue Catalog
آزمایشگاه ۲: پرس‌وجو در Athena و گروه‌های کاری Lab 2 - Querying Athena & Workgroups
آزمایشگاه ۳: APIهای Boto3 Athena Lab 3 - Boto3 Athena APIs
بهترین متدهای Athena Athena Best Practices

اسپارک (Spark) Spark

معماری Spark Spark Architecture
APIهای PySpark PySpark APIs
آزمایشگاه ۱: APIهای PySpark Lab 1 - PySpark APIs
آزمایشگاه ۲: UDF در PySpark Lab 2 - UDF in PySpark
آزمایشگاه ۳: نیازمندی‌های خط لوله داده Lab 3 - Data Pipeline Requirements
آزمایشگاه ۴: پیاده‌سازی خط لوله داده Lab 4 - Data Pipeline Implementation
آزمایشگاه ۵: اجرای خط لوله داده با استفاده از EMR Lab 5 - Running Data Pipeline using EMR
بهترین متدها Best Practices

ایر‌فلو (Airflow) Airflow

معماری Airflow Airflow Architecture
آزمایشگاه ۱: نصب و راه‌اندازی Airflow Lab 1 - Airflow Setup
آزمایشگاه ۲: خط لوله جذب داده - بخش اول Lab 2 - Data Ingestion Pipeline Part 1
آزمایشگاه ۳: خط لوله جذب داده - بخش دوم Lab 3 - Data Ingestion Pipeline Part 2
آزمایشگاه ۴: پیاده‌سازی پلاگین Lab 4 - Plugin Implementation
آزمایشگاه ۵: خط لوله تبدیل داده (Transformation) Lab 5 - Data Transformation Pipeline

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش بوت‌کمپ مهندسی داده: SQL، ETL، PySpark و AWS (پروژه‌محور)

جزییات دوره

زمان دوره: 10 hours

تعداد ویدیو ها: 57

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 1,102

امتیاز مرجع: 4.5 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Andalib Ansari

لینک کوتاه این دوره

https://donyad.com/d/376d4b

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Andalib Ansari

مشاور کلان داده

عندلیب انصاری یک مشاور کلان داده مستقر در بمبئی است. او به شرکت ها و مردم کمک می کند تا مشکلات تجاری را با استفاده از فناوری های Big Data حل کنند. همچنین یکی از علایق او، راهنمایی و آموزش افراد در مورد ابزارها و فناوری های مختلف Big Data است.

او در معرض دید بسیار مناسبی از ابزارها و فناوری‌های Big Data است و با مشتریان مختلف، اپراتورهای شبکه تلفن همراه (MNO)، از آمریکای لاتین و ایالات متحده برای حل مشکلات تجاری مختلف برای موارد مختلف کار کرده است. و خطوط لوله داده بهینه‌سازی شده را با استفاده از فناوری‌های Big Data در فضای ابری طراحی کرد.

آموزش بوت‌کمپ مهندسی داده: SQL، ETL، PySpark و AWS (پروژه‌محور) - آخرین آپدیت

دانلود Data Engineering Bootcamp: SQL, ETL, PySpark & AWS(Hands-on)

آماده‌سازی محیط و مفاهیم Context Setup

معارفه و شروع دوره Student Onboarding

درک منابع داده Understanding Data Sources

معماری Modern Data Stack Modern Data Stack Architecture

نصبات و پیکربندی Installations & Setup

ضروریات دریاچه داده Data Lake Essentials

معماری S3 S3 Architecture

آزمایشگاه ۱: باکت‌ها و پیشوندها Lab 1 - Buckets and Prefixes

لایه‌ها در دریاچه داده Layers in Data Lake

پارتیشن‌بندی داده‌ها در دریاچه داده Data Partitioning in Data Lake

آزمایشگاه ۲: پارتیشن‌بندی داده‌ها Lab 2 - Data Partitioning

فرمت‌های فایل File Formats

تکامل شمای داده (Schema Evolution) Schema Evolution

متااستور (Metastore) Metastore

آزمایشگاه ۳: نسخه‌بندی و بازگشت (Rollback) Lab 3 - Versioning and Rollback

کلاس‌های ذخیره‌سازی S3 S3 Storage Classes

رویدادهای S3 S3 Events

آزمایشگاه ۴: اعلان‌های رویداد Lab 4 - Event Notifications

امنیت داده‌ها Data Security

S3 IAM و ACLها S3 IAM and ACLs

مدیریت چرخه عمر داده‌ها Data Lifecycle Management

آزمایشگاه ۵: چرخه عمر داده Lab 5- Data Lifecycle

پشتیبان‌گیری و بازیابی پس از حادثه Backup and Disaster Recovery

میتادیتای S3 S3 Metadata

S3 Storage Lens S3 Storage Lens

آزمایشگاه ۶: Storage Lens Lab 6 - Storage Lens

آزمایشگاه ۷: APIهای Boto3 S3 Lab 7 - Boto3 S3 APIs

مدل‌سازی داده‌ها Data Modeling

مقدمه‌ای بر مدل‌سازی داده‌ها Introductions to Data Modeling

انواع مدل‌های داده Types of Data Model

مدل‌سازی ابعادی: SCD1 و SCD2 Dimension Modeling - SCD1, SCD2

مدل‌سازی Fact Fact Modeling

دیتا مارت‌ها (Datamarts) Datamarts

آزمایشگاه ۱: SCD نوع ۱ Lab 1- SCD Type 1

آزمایشگاه ۲: SCD نوع ۲ Lab 2 - SCD Type 2

آزمایشگاه ۳: مدل‌سازی Fact Lab 3 - Fact Modeling

کیفیت داده Data Quality

مقدمه‌ای بر کیفیت داده Introductions to Data Quality

انواع کیفیت داده Types of Data Quality

ابزارهای DQC DQC Tools

قراردادهای داده (Data Contracts) Data Contracts

آزمایشگاه ۱: DQC Lab 1 - DQC

آتنا (Athena) Athena

مقایسه PrestoDB در برابر Trino و Athena PrestoDB vs Trino vs Athena

آزمایشگاه ۱: DDL و Glue Catalog Lab 1 - DDL & Glue Catalog

آزمایشگاه ۲: پرس‌وجو در Athena و گروه‌های کاری Lab 2 - Querying Athena & Workgroups

آزمایشگاه ۳: APIهای Boto3 Athena Lab 3 - Boto3 Athena APIs

بهترین متدهای Athena Athena Best Practices

اسپارک (Spark) Spark

معماری Spark Spark Architecture

APIهای PySpark PySpark APIs

آزمایشگاه ۱: APIهای PySpark Lab 1 - PySpark APIs

آزمایشگاه ۲: UDF در PySpark Lab 2 - UDF in PySpark

آزمایشگاه ۳: نیازمندی‌های خط لوله داده Lab 3 - Data Pipeline Requirements

آزمایشگاه ۴: پیاده‌سازی خط لوله داده Lab 4 - Data Pipeline Implementation

آزمایشگاه ۵: اجرای خط لوله داده با استفاده از EMR Lab 5 - Running Data Pipeline using EMR

بهترین متدها Best Practices

ایر‌فلو (Airflow) Airflow

معماری Airflow Airflow Architecture

آزمایشگاه ۱: نصب و راه‌اندازی Airflow Lab 1 - Airflow Setup

آزمایشگاه ۲: خط لوله جذب داده - بخش اول Lab 2 - Data Ingestion Pipeline Part 1

آزمایشگاه ۳: خط لوله جذب داده - بخش دوم Lab 3 - Data Ingestion Pipeline Part 2

آزمایشگاه ۴: پیاده‌سازی پلاگین Lab 4 - Plugin Implementation

آزمایشگاه ۵: خط لوله تبدیل داده (Transformation) Lab 5 - Data Transformation Pipeline

نمایش نظرات

https://donyad.com/d/376d4b