آموزش بوت‌کمپ جامع مهندسی داده با PySpark - آخرین آپدیت

دانلود The Complete Data Engineering Bootcamp with PySpark

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: بیاموزید که مهندسان داده واقعی چگونه خط لوله‌های PySpark را با استفاده از Airflow، Git و جریان‌های کاری در سطح تولید (Production) می‌سازند و مستقر می‌کنند. راه‌اندازی کامل استک داده: Docker، Spark، Airflow، HDFS و Jupyter ساخت و استقرار کارهای ETL با PySpark با استفاده از DataFrame API و Spark SQL. ساخت و استقرار خط لوله‌های PySpark با Airflow و cron سازماندهی حرفه‌ای پروژه با اسکریپت‌ها، فایل‌های پیکربندی، محیط‌های shell و Git. شبیه‌سازی جریان‌های کاری واقعی مهندسی داده: شاخه‌بندی Git، بازبینی کد (Code Review) و استقرارهای مبتنی بر تیکت. پیش نیازها: دانش پایه پایتون آشنایی با SQL مفید است اما اجباری نیست. به هیچ تجربه قبلی در Spark، Docker یا Airflow نیاز نیست؛ همه موارد گام‌به‌گام آموزش داده می‌شوند. کامپیوتری با حداقل ۸ گیگابایت رم (۱۲ گیگابایت توصیه می‌شود) و ۴۰ گیگابایت فضای خالی دیسک (۵۰ گیگابایت توصیه می‌شود) اتصال اینترنت مناسب

آیا می‌خواهید بدون اتلاف وقت روی تئوری‌های انتزاعی یا ابزارهای قدیمی، به یک مهندس داده با استفاده از PySpark تبدیل شوید؟
این دوره دقیقاً آنچه را که مهندسان داده حرفه‌ای با استفاده از ابزارها، ساختارها و جریان‌های کاری محیط‌های تولید واقعی انجام می‌دهند، به شما نشان می‌دهد.


آنچه از طریق پروژه‌های واقعی خواهید آموخت:

  • راه‌اندازی کامل استک مهندسی داده با Docker، Spark، Airflow، HDFS و Jupyter.

  • نوشتن و استقرار کارهای PySpark ETL آماده برای محیط تولید با استفاده از DataFrame API و Spark SQL.

  • اتوماسیون و زمان‌بندی خط لوله‌ها با استفاده از cron، Airflow DAGs و مانیتورینگ آن‌ها با Spark UI.


از روز اول، شما مانند یک مهندس داده واقعی کار خواهید کرد:

  • تسلط بر شاخه‌بندی Git، ادغام (Merge) و جریان‌های کاری کنترل نسخه در دنیای واقعی.

  • ساختاربندی حرفه‌ای پروژه‌ها: پوشه‌های scripts/، configs/، محیط env shell و ماژول‌های قابل استفاده مجدد.

  • تغییر بدون وقفه بین محیط‌های توسعه (Development) و تولید (Production).

  • شبیه‌سازی استقرارهای مبتنی بر تیکت و همکاری تیمی ــ دقیقاً مشابه شرکت‌های واقعی.


چه چیزی این دوره را متفاوت می‌کند؟

بسیاری از دوره‌های PySpark فقط سینتکس را آموزش می‌دهند. این دوره شما را برای خط لوله‌های داده واقعی آماده می‌کند:

  • درک دقیق جایگاه Spark در جریان‌های کاری داده‌های تولیدی.

  • ساخت کدبیس‌های ماژولار و آماده برای محیط Production.

  • استقرار کارها با استفاده از spark-submit، cron و Airflow.

  • مانیتورینگ، عیب‌یابی و بهینه‌سازی خط لوله‌ها با استفاده از Spark UI، لاگ‌ها، کشینگ و تکنیک‌های تنظیم (Tuning).


این دوره یک راهنمای عملی برای ساخت و استقرار خط لوله‌های داده واقعی است ــ درست مانند یک مهندس داده حرفه‌ای.

شما به‌طور خاص موارد زیر را خواهید آموخت:

  • راه‌اندازی محیط مهندسی داده مبتنی بر Docker شامل Spark، Airflow، HDFS و Jupyter.

  • ساخت کارهای قابل اعتماد PySpark ETL با استفاده از DataFrames و Spark SQL.

  • اتوماسیون خط لوله‌ها با spark-submit، Airflow DAGs و زمان‌بندی cron.

  • سازماندهی کد با ساختارهای پروژه واقعی و جریان‌های کاری Git.

  • تکمیل دو پروژه واقعی مهندسی داده ــ دقیقاً همان‌گونه که تیم‌های مهندسی داده کار می‌کنند.

در پایان این دوره، شما مهارت‌های عملی و در سطح تولید خواهید داشت که مهندسان داده واقعی روزانه از آن‌ها استفاده می‌کنند.


سرفصل ها و درس ها

شروع مسیر مهندسی داده Start Your Data Engineering Journey

  • چرا Spark مشکلات واقعی ETL را حل می‌کند Why Spark Solves Real ETL Problems

  • نقش Spark در خط لوله‌های داده Spark’s Role in Data Pipelines

  • معرفی سریع Spark Jobs، Stages و DAGs Spark Jobs, Stages, DAGs — Quick Intro

راه‌اندازی استک مهندسی داده Set Up Your Data Engineering Stack

  • آنچه راه‌اندازی خواهید کرد – Spark + Airflow + HDFS در Docker What You’ll Set Up – Spark + Airflow + HDFS in Docker

  • نصب WSL2 و Docker Install WSL2 + Docker

  • ایجاد تنظیمات Docker Compose Create Docker Compose Setup

  • یک دستور: اجرای Spark، Airflow، HDFS و Jupyter One Command: Launch Spark, Airflow, HDFS, Jupyter

  • راهنمای عیب‌یابی تنظیمات Docker Compose Docker Compose Setup - Troubleshooting Guide

  • بررسی Spark UI، Airflow UI و HDFS UI Explore Spark UI, Airflow UI, HDFS UI

  • بررسی HDFS Explore HDFS

  • استفاده از PySpark Shell Use PySpark Shell

ساخت و تست کارهای PySpark ETL Build and Test PySpark ETL Jobs

  • بارگذاری و بررسی فایل‌ها در Jupyter و PySpark Shell Load & Explore Files in Jupyter and PySpark Shell

  • ساخت منطق ETL با استفاده از DataFrame API (اتصال، تبدیل، نوشتن) Build ETL Logic Using DataFrame API (Joins, Transforms, Write)

  • اجرای همان ETL در Spark SQL Perform Same ETL in Spark SQL

  • نوشتن اسکریپت‌های تمیز PySpark Write Clean PySpark Scripts

  • ارسال کارها با استفاده از spark submit Submit Jobs Using spark-submit

  • (اختیاری) نحوه پیمایش در اپلیکیشن‌های Spark (Optional)How to Navigate Spark-apps

پروژه واقعی: خط لوله ETL فروش (Cron) Real Project: Sales ETL Pipeline (Cron)

  • درک نیازمندی‌های ETL فروش Understand Sales ETL Requirement

  • ساخت خط لوله ETL فروش با استفاده از Pyspark Shell Build the Sales ETL Pipeline Using Pyspark Shell

  • ایجاد یک اسکریپت PySpark قابل استفاده مجدد Create a Reusable PySpark Script

  • اسکریپت Shell دینامیک برای استقرار Dynamic Shell Script for Deployment

  • زمان‌بندی اجرای روزانه با Cron (شبیه‌سازی محیط Prod سبک) Schedule Daily Run with Cron (Simulate Lightweight Prod)

  • جمع‌بندی و یادگیری‌های کلیدی Wrap-Up and Key Learnings

  • یادداشت‌ها و دستورات استفاده شده در خط لوله ETL فروش Notes/Commands used in Sales ETL Pipeline

پروژه واقعی: خط لوله ETL مشتریان (Airflow و HDFS) Real Project: Customer ETL Pipeline (Airflow & HDFS)

  • درک نیازمندی‌های ETL مشتریان Understand Customer ETL Requirement

  • ساخت خط لوله با استفاده از Jupyter notebook Build Pipeline using Jupyter notebook

  • تبدیل جریان کاری به اسکریپت خط لوله Convert Workflow into Pipeline Script

  • ایجاد اسکریپت Shell Wrapper Create Shell Wrapper script

  • اتوماسیون خط لوله با Airflow Automate Pipeline with Airflow

  • جمع‌بندی و درس‌های آموخته شده Wrap-Up and Lessons Learned

آماده برای تولید: خط لوله‌های Dev در مقابل Prod Production Ready: Dev vs Prod Pipelines

  • چرا تفاوت Dev و Prod مهم است – بهترین تجربیات شرکتی Why Dev vs Prod Matters – Company Best Practices

  • ایجاد Env shell برای دینامیک کردن خط لوله Create Env shell to make Pipeline Dynamic

  • تغییر بین محیط‌های Dev و Prod Switch Between Dev and Prod

  • تنظیمات خط لوله آماده برای محیط تولید Your Production-Ready Pipeline Setup

جریان‌های کاری ــ Git، تحویل پروژه و استقرار Workflows — Git, Handoffs, Deployments

  • جریان‌های کاری واقعی Git (Dev, QA, Prod) Real Git Workflows (Dev, QA, Prod)

  • شبیه‌سازی تحویل‌های تیمی مبتنی بر تیکت Simulate Ticket-Based Team Handoffs

سپاسگزاری Thank you!!

  • سپاسگزاری Thank you

نمایش نظرات

آموزش بوت‌کمپ جامع مهندسی داده با PySpark
جزییات دوره
5.5 hours
37
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
659
4.6 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar