آموزش بوت‌کمپ مهندسی داده: SQL، ETL، PySpark و AWS (پروژه‌محور) - آخرین آپدیت

دانلود Data Engineering Bootcamp: SQL, ETL, PySpark & AWS(Hands-on)

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: ساخت خط لوله‌های ETL با پروژه‌های واقعی گام به گام درک مفاهیم بنیادی مهندسی داده مدرن ساخت و مدیریت دریاچه‌های داده (Data Lakes) مقیاس‌پذیر روی AWS S3 طراحی مدل‌های داده Star Schema با جداول Fact و Dimension پیاده‌سازی ابعاد با تغییرات کند (SCD1 و SCD2) توسعه خط لوله‌های ETL با استفاده از PySpark همراه با بررسی کیفیت داده‌ها پرس‌وجو و تحلیل دریاچه‌های داده با AWS Athena و Glue Catalog اتوماسیون گردش‌های کاری و خط لوله‌ها با استفاده از Apache Airflow ساخت پلاگین‌های سفارشی Airflow برای مدیریت جاب‌های EMR Spark به‌کارگیری الگوی WAP (Write-Audit-Publish) برای خط لوله‌های عملیاتی پیاده‌سازی چارچوب‌های کیفیت داده و قراردادهای داده (Data Contracts) استقرار و مانیتورینگ خط لوله‌های داده روی AWS EMR بهینه‌سازی جریان‌های کاری داده از نظر هزینه، عملکرد و قابلیت اطمینان کسب تجربه عملی با کاربردهای واقعی آمادگی برای مصاحبه‌های شغلی مهندسی داده با اعتماد به نفس کامل پیشنیازها: دانش پایه SQL و پایتون آشنایی با Docker و اسکریپت‌نویسی Bash مزیت محسوب می‌شود

تسلط بر هسته مهندسی داده مدرن –ساخت خط لوله‌های واقعی با Airflow، AWS، Spark و Python.

اولین قدم خود را در مسیر مهندسی دادهبردارید و آینده شغلی خود را با این بوت‌کمپ عملی و پروژه‌محورکه بر اساس تکنولوژی‌های مدرن داده (Modern Data Stack)طراحی شده است، تضمین کنید.

این دوره توسط یک معمار ارشد داده با بیش از ۱۲ سال تجربه عملیتدریس شده و ترکیبی از تئوری و عمل است تا به شما کمک کند سیستم‌های داده مقیاس‌پذیرمشابه شرکت‌های برتر تکنولوژی را طراحی، ساخته و مدیریت کنید.

چه یک مهندس داده آینده، توسعه‌دهنده نرم‌افزار یا تحلیل‌گرباشید، این دوره شما را در ساخت خط لوله‌های داده در سطح سازمانیاز صفر، از طریق یک پروژه واقعی اپلیکیشن تاکسی آنلاینکه چالش‌های واقعی داده را شبیه‌سازی می‌کند، راهنمایی می‌کند.

آنچه خواهید آموخت

شما تخصص عملیدر حیاتی‌ترین اجزای مهندسی داده را کسب خواهید کرد:

بخش ۱: آماده‌سازی محیط و مفاهیم

  • درک Modern Data Stackو معماری‌های داده در دنیای واقعی

  • یادگیری نحوه جریان داده بین سیستم‌هادر شرکت‌های داده‌محور

  • راه‌اندازی زیربنای پروژه با سناریوی یک اپلیکیشن تاکسی آنلاین

بخش ۲: ضروریات دریاچه داده (Data Lake)

  • ساخت دریاچه‌های داده مقیاس‌پذیر روی AWS S3با رعایت بهترین متدها

  • تسلط بر معماری S3، پارتیشن‌بندی و تکامل شمای داده‌ها

  • پیاده‌سازی IAM، رمزنگاری و مدیریت چرخه عمر داده‌ها

  • کار عملی با APIهای Boto3 S3برای اتوماسیون

بخش ۳: مدل‌سازی داده‌ها

  • طراحی مدل‌های ابعادی (Star Schema)برای تحلیل داده‌ها

  • پیاده‌سازی ابعاد با تغییرات کند (SCD Type 1 & 2)

  • ساخت جامع خط لوله‌های ETL و دیتا مارت‌ها (Data Marts)

بخش ۴: چارچوب‌های کیفیت داده

  • یادگیری نحوه تضمین دقت، کامل بودن و سازگاری داده‌ها

  • پیاده‌سازی اعتبارسنجی داده‌ها و قراردادهای داده

  • استفاده از استانداردهای صنعت برای حفظ اعتماد به داده‌ها

بخش ۵: AWS Athena

  • پرس‌وجو در مجموعه‌داده‌های عظیم با AWS Athena(موتور SQL بدون سرور)

  • یادگیری DDL، Glue Catalog، گروه‌های کاری و اتوماسیون با Boto3

  • مقایسه Athena، Presto و Trino

  • به‌کارگیری استراتژی‌های بهینه‌سازی برای افزایش عملکرد

بخش ۶: Apache Spark روی AWS EMR

  • ساخت خط لوله‌های PySparkمقیاس‌پذیر با الگوی Write-Audit-Publish (WAP)

  • درک معماری Spark و APIهای آن

  • اجرای جاب‌های Spark در سطح عملیاتیروی AWS EMR

  • به‌کارگیری UDFها و بررسی‌های کیفیت دادهدر تبدیلات

بخش ۷: ارکستراسیون با Apache Airflow

  • تسلط بر مدیریت جریان‌های کاری (Orchestration)با استفاده از Apache Airflow

  • طراحی DAGها، مدیریت وابستگی‌ها و زمان‌بندی جاب‌ها

  • اتوماسیون جاب‌های Spark با استفاده از یک پلاگین سفارشی AWS EMR

  • ساخت راهکارهای ارکستراسیون قابل اعتماد و بازقابل‌استفاده

آنچه خواهید ساخت

در پایان دوره، شما پلتفرم داده‌ای در سطح عملیاتیبرای یک شرکت تاکسی آنلاین خواهید ساخت که شامل موارد زیر است:

  • یک دریاچه داده (Data Lake)روی AWS S3

  • مدل داده ابعادیبا منطق SCD

  • خط لوله‌های ETL بر پایه PySpark

  • ارکستراسیون خودکاربا Airflow

  • لایه پرس‌وجو (Query layer)قدرت گرفته از Athena

  • چارچوب کیفیت دادهبرای اعتبارسنجی و مانیتورینگ

این دوره برای چه کسانی است

  • علاقمندان به مهندسی دادهو توسعه‌دهندگان ETL

  • تحلیل‌گران یا مهندسان نرم‌افزارکه قصد ورود به نقش‌های داده‌ای را دارند

  • هر کسی که مشتاق ساخت سیستم‌های داده مقیاس‌پذیرروی ابری است

چرا از من یاد بگیرید

من andalib ansariهستم، معمار دادهبا بیش از ۱۲ سال تجربه در طراحی و پیاده‌سازی پلتفرم‌های داده و راهکارهای تحلیلیدر صنایع مختلف. هدف من این است که شما را در مهارت‌های عملی مهندسی داده، و نه فقط تئوری، به درجه‌ای از اعتماد به نفس برسانم.

همین حالا ثبت‌نام کنید

از کد تخفیف DEBS12025 برای قیمت ویژه استفاده کنید. اولین قدم را در مسیر مهندسی دادهبردارید و از همین امروز ساخت خط لوله‌های داده واقعیخود را شروع کنید!


سرفصل ها و درس ها

آماده‌سازی محیط و مفاهیم Context Setup

  • معارفه و شروع دوره Student Onboarding

  • درک منابع داده Understanding Data Sources

  • معماری Modern Data Stack Modern Data Stack Architecture

  • نصبات و پیکربندی Installations & Setup

ضروریات دریاچه داده Data Lake Essentials

  • معماری S3 S3 Architecture

  • آزمایشگاه ۱: باکت‌ها و پیشوندها Lab 1 - Buckets and Prefixes

  • لایه‌ها در دریاچه داده Layers in Data Lake

  • پارتیشن‌بندی داده‌ها در دریاچه داده Data Partitioning in Data Lake

  • آزمایشگاه ۲: پارتیشن‌بندی داده‌ها Lab 2 - Data Partitioning

  • فرمت‌های فایل File Formats

  • تکامل شمای داده (Schema Evolution) Schema Evolution

  • متااستور (Metastore) Metastore

  • آزمایشگاه ۳: نسخه‌بندی و بازگشت (Rollback) Lab 3 - Versioning and Rollback

  • کلاس‌های ذخیره‌سازی S3 S3 Storage Classes

  • رویدادهای S3 S3 Events

  • آزمایشگاه ۴: اعلان‌های رویداد Lab 4 - Event Notifications

  • امنیت داده‌ها Data Security

  • S3 IAM و ACLها S3 IAM and ACLs

  • مدیریت چرخه عمر داده‌ها Data Lifecycle Management

  • آزمایشگاه ۵: چرخه عمر داده Lab 5- Data Lifecycle

  • پشتیبان‌گیری و بازیابی پس از حادثه Backup and Disaster Recovery

  • میتادیتای S3 S3 Metadata

  • S3 Storage Lens S3 Storage Lens

  • آزمایشگاه ۶: Storage Lens Lab 6 - Storage Lens

  • آزمایشگاه ۷: APIهای Boto3 S3 Lab 7 - Boto3 S3 APIs

مدل‌سازی داده‌ها Data Modeling

  • مقدمه‌ای بر مدل‌سازی داده‌ها Introductions to Data Modeling

  • انواع مدل‌های داده Types of Data Model

  • مدل‌سازی ابعادی: SCD1 و SCD2 Dimension Modeling - SCD1, SCD2

  • مدل‌سازی Fact Fact Modeling

  • دیتا مارت‌ها (Datamarts) Datamarts

  • آزمایشگاه ۱: SCD نوع ۱ Lab 1- SCD Type 1

  • آزمایشگاه ۲: SCD نوع ۲ Lab 2 - SCD Type 2

  • آزمایشگاه ۳: مدل‌سازی Fact Lab 3 - Fact Modeling

کیفیت داده Data Quality

  • مقدمه‌ای بر کیفیت داده Introductions to Data Quality

  • انواع کیفیت داده Types of Data Quality

  • ابزارهای DQC DQC Tools

  • قراردادهای داده (Data Contracts) Data Contracts

  • آزمایشگاه ۱: DQC Lab 1 - DQC

آتنا (Athena) Athena

  • مقایسه PrestoDB در برابر Trino و Athena PrestoDB vs Trino vs Athena

  • آزمایشگاه ۱: DDL و Glue Catalog Lab 1 - DDL & Glue Catalog

  • آزمایشگاه ۲: پرس‌وجو در Athena و گروه‌های کاری Lab 2 - Querying Athena & Workgroups

  • آزمایشگاه ۳: APIهای Boto3 Athena Lab 3 - Boto3 Athena APIs

  • بهترین متدهای Athena Athena Best Practices

اسپارک (Spark) Spark

  • معماری Spark Spark Architecture

  • APIهای PySpark PySpark APIs

  • آزمایشگاه ۱: APIهای PySpark Lab 1 - PySpark APIs

  • آزمایشگاه ۲: UDF در PySpark Lab 2 - UDF in PySpark

  • آزمایشگاه ۳: نیازمندی‌های خط لوله داده Lab 3 - Data Pipeline Requirements

  • آزمایشگاه ۴: پیاده‌سازی خط لوله داده Lab 4 - Data Pipeline Implementation

  • آزمایشگاه ۵: اجرای خط لوله داده با استفاده از EMR Lab 5 - Running Data Pipeline using EMR

  • بهترین متدها Best Practices

ایر‌فلو (Airflow) Airflow

  • معماری Airflow Airflow Architecture

  • آزمایشگاه ۱: نصب و راه‌اندازی Airflow Lab 1 - Airflow Setup

  • آزمایشگاه ۲: خط لوله جذب داده - بخش اول Lab 2 - Data Ingestion Pipeline Part 1

  • آزمایشگاه ۳: خط لوله جذب داده - بخش دوم Lab 3 - Data Ingestion Pipeline Part 2

  • آزمایشگاه ۴: پیاده‌سازی پلاگین Lab 4 - Plugin Implementation

  • آزمایشگاه ۵: خط لوله تبدیل داده (Transformation) Lab 5 - Data Transformation Pipeline

نمایش نظرات

آموزش بوت‌کمپ مهندسی داده: SQL، ETL، PySpark و AWS (پروژه‌محور)
جزییات دوره
10 hours
57
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,102
4.5 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Andalib Ansari Andalib Ansari

مشاور کلان داده

عندلیب انصاری یک مشاور کلان داده مستقر در بمبئی است. او به شرکت ها و مردم کمک می کند تا مشکلات تجاری را با استفاده از فناوری های Big Data حل کنند. همچنین یکی از علایق او، راهنمایی و آموزش افراد در مورد ابزارها و فناوری های مختلف Big Data است.

او در معرض دید بسیار مناسبی از ابزارها و فناوری‌های Big Data است و با مشتریان مختلف، اپراتورهای شبکه تلفن همراه (MNO)، از آمریکای لاتین و ایالات متحده برای حل مشکلات تجاری مختلف برای موارد مختلف کار کرده است. و خطوط لوله داده بهینه‌سازی شده را با استفاده از فناوری‌های Big Data در فضای ابری طراحی کرد.