دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش بوت‌کمپ جامع مهندسی داده با PySpark - آخرین آپدیت

دانلود The Complete Data Engineering Bootcamp with PySpark

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: بیاموزید که مهندسان داده واقعی چگونه خط لوله‌های PySpark را با استفاده از Airflow، Git و جریان‌های کاری در سطح تولید (Production) می‌سازند و مستقر می‌کنند. راه‌اندازی کامل استک داده: Docker، Spark، Airflow، HDFS و Jupyter ساخت و استقرار کارهای ETL با PySpark با استفاده از DataFrame API و Spark SQL. ساخت و استقرار خط لوله‌های PySpark با Airflow و cron سازماندهی حرفه‌ای پروژه با اسکریپت‌ها، فایل‌های پیکربندی، محیط‌های shell و Git. شبیه‌سازی جریان‌های کاری واقعی مهندسی داده: شاخه‌بندی Git، بازبینی کد (Code Review) و استقرارهای مبتنی بر تیکت. پیش نیازها: دانش پایه پایتون آشنایی با SQL مفید است اما اجباری نیست. به هیچ تجربه قبلی در Spark، Docker یا Airflow نیاز نیست؛ همه موارد گام‌به‌گام آموزش داده می‌شوند. کامپیوتری با حداقل ۸ گیگابایت رم (۱۲ گیگابایت توصیه می‌شود) و ۴۰ گیگابایت فضای خالی دیسک (۵۰ گیگابایت توصیه می‌شود) اتصال اینترنت مناسب

آیا می‌خواهید بدون اتلاف وقت روی تئوری‌های انتزاعی یا ابزارهای قدیمی، به یک مهندس داده با استفاده از PySpark تبدیل شوید؟
این دوره دقیقاً آنچه را که مهندسان داده حرفه‌ای با استفاده از ابزارها، ساختارها و جریان‌های کاری محیط‌های تولید واقعی انجام می‌دهند، به شما نشان می‌دهد.

آنچه از طریق پروژه‌های واقعی خواهید آموخت:

راه‌اندازی کامل استک مهندسی داده با Docker، Spark، Airflow، HDFS و Jupyter.
نوشتن و استقرار کارهای PySpark ETL آماده برای محیط تولید با استفاده از DataFrame API و Spark SQL.
اتوماسیون و زمان‌بندی خط لوله‌ها با استفاده از cron، Airflow DAGs و مانیتورینگ آن‌ها با Spark UI.

از روز اول، شما مانند یک مهندس داده واقعی کار خواهید کرد:

تسلط بر شاخه‌بندی Git، ادغام (Merge) و جریان‌های کاری کنترل نسخه در دنیای واقعی.
ساختاربندی حرفه‌ای پروژه‌ها: پوشه‌های scripts/، configs/، محیط env shell و ماژول‌های قابل استفاده مجدد.
تغییر بدون وقفه بین محیط‌های توسعه (Development) و تولید (Production).
شبیه‌سازی استقرارهای مبتنی بر تیکت و همکاری تیمی ــ دقیقاً مشابه شرکت‌های واقعی.

چه چیزی این دوره را متفاوت می‌کند؟

بسیاری از دوره‌های PySpark فقط سینتکس را آموزش می‌دهند. این دوره شما را برای خط لوله‌های داده واقعی آماده می‌کند:

درک دقیق جایگاه Spark در جریان‌های کاری داده‌های تولیدی.
ساخت کدبیس‌های ماژولار و آماده برای محیط Production.
استقرار کارها با استفاده از spark-submit، cron و Airflow.
مانیتورینگ، عیب‌یابی و بهینه‌سازی خط لوله‌ها با استفاده از Spark UI، لاگ‌ها، کشینگ و تکنیک‌های تنظیم (Tuning).

این دوره یک راهنمای عملی برای ساخت و استقرار خط لوله‌های داده واقعی است ــ درست مانند یک مهندس داده حرفه‌ای.

شما به‌طور خاص موارد زیر را خواهید آموخت:

راه‌اندازی محیط مهندسی داده مبتنی بر Docker شامل Spark، Airflow، HDFS و Jupyter.
ساخت کارهای قابل اعتماد PySpark ETL با استفاده از DataFrames و Spark SQL.
اتوماسیون خط لوله‌ها با spark-submit، Airflow DAGs و زمان‌بندی cron.
سازماندهی کد با ساختارهای پروژه واقعی و جریان‌های کاری Git.
تکمیل دو پروژه واقعی مهندسی داده ــ دقیقاً همان‌گونه که تیم‌های مهندسی داده کار می‌کنند.

در پایان این دوره، شما مهارت‌های عملی و در سطح تولید خواهید داشت که مهندسان داده واقعی روزانه از آن‌ها استفاده می‌کنند.

سرفصل ها و درس ها

شروع مسیر مهندسی داده Start Your Data Engineering Journey

چرا Spark مشکلات واقعی ETL را حل می‌کند Why Spark Solves Real ETL Problems
نقش Spark در خط لوله‌های داده Spark’s Role in Data Pipelines
معرفی سریع Spark Jobs، Stages و DAGs Spark Jobs, Stages, DAGs — Quick Intro

راه‌اندازی استک مهندسی داده Set Up Your Data Engineering Stack

آنچه راه‌اندازی خواهید کرد – Spark + Airflow + HDFS در Docker What You’ll Set Up – Spark + Airflow + HDFS in Docker
نصب WSL2 و Docker Install WSL2 + Docker
ایجاد تنظیمات Docker Compose Create Docker Compose Setup
یک دستور: اجرای Spark، Airflow، HDFS و Jupyter One Command: Launch Spark, Airflow, HDFS, Jupyter
راهنمای عیب‌یابی تنظیمات Docker Compose Docker Compose Setup - Troubleshooting Guide
بررسی Spark UI، Airflow UI و HDFS UI Explore Spark UI, Airflow UI, HDFS UI
بررسی HDFS Explore HDFS
استفاده از PySpark Shell Use PySpark Shell

ساخت و تست کارهای PySpark ETL Build and Test PySpark ETL Jobs

بارگذاری و بررسی فایل‌ها در Jupyter و PySpark Shell Load & Explore Files in Jupyter and PySpark Shell
ساخت منطق ETL با استفاده از DataFrame API (اتصال، تبدیل، نوشتن) Build ETL Logic Using DataFrame API (Joins, Transforms, Write)
اجرای همان ETL در Spark SQL Perform Same ETL in Spark SQL
نوشتن اسکریپت‌های تمیز PySpark Write Clean PySpark Scripts
ارسال کارها با استفاده از spark submit Submit Jobs Using spark-submit
(اختیاری) نحوه پیمایش در اپلیکیشن‌های Spark (Optional)How to Navigate Spark-apps

پروژه واقعی: خط لوله ETL فروش (Cron) Real Project: Sales ETL Pipeline (Cron)

درک نیازمندی‌های ETL فروش Understand Sales ETL Requirement
ساخت خط لوله ETL فروش با استفاده از Pyspark Shell Build the Sales ETL Pipeline Using Pyspark Shell
ایجاد یک اسکریپت PySpark قابل استفاده مجدد Create a Reusable PySpark Script
اسکریپت Shell دینامیک برای استقرار Dynamic Shell Script for Deployment
زمان‌بندی اجرای روزانه با Cron (شبیه‌سازی محیط Prod سبک) Schedule Daily Run with Cron (Simulate Lightweight Prod)
جمع‌بندی و یادگیری‌های کلیدی Wrap-Up and Key Learnings
یادداشت‌ها و دستورات استفاده شده در خط لوله ETL فروش Notes/Commands used in Sales ETL Pipeline

پروژه واقعی: خط لوله ETL مشتریان (Airflow و HDFS) Real Project: Customer ETL Pipeline (Airflow & HDFS)

درک نیازمندی‌های ETL مشتریان Understand Customer ETL Requirement
ساخت خط لوله با استفاده از Jupyter notebook Build Pipeline using Jupyter notebook
تبدیل جریان کاری به اسکریپت خط لوله Convert Workflow into Pipeline Script
ایجاد اسکریپت Shell Wrapper Create Shell Wrapper script
اتوماسیون خط لوله با Airflow Automate Pipeline with Airflow
جمع‌بندی و درس‌های آموخته شده Wrap-Up and Lessons Learned

آماده برای تولید: خط لوله‌های Dev در مقابل Prod Production Ready: Dev vs Prod Pipelines

چرا تفاوت Dev و Prod مهم است – بهترین تجربیات شرکتی Why Dev vs Prod Matters – Company Best Practices
ایجاد Env shell برای دینامیک کردن خط لوله Create Env shell to make Pipeline Dynamic
تغییر بین محیط‌های Dev و Prod Switch Between Dev and Prod
تنظیمات خط لوله آماده برای محیط تولید Your Production-Ready Pipeline Setup

جریان‌های کاری ــ Git، تحویل پروژه و استقرار Workflows — Git, Handoffs, Deployments

جریان‌های کاری واقعی Git (Dev, QA, Prod) Real Git Workflows (Dev, QA, Prod)
شبیه‌سازی تحویل‌های تیمی مبتنی بر تیکت Simulate Ticket-Based Team Handoffs

سپاسگزاری Thank you!!

سپاسگزاری Thank you

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش بوت‌کمپ جامع مهندسی داده با PySpark

جزییات دوره

زمان دوره: 5.5 hours

تعداد ویدیو ها: 37

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 659

امتیاز مرجع: 4.6 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Chandra Venkat

لینک کوتاه این دوره

https://donyad.com/d/479acb

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

آموزش بوت‌کمپ جامع مهندسی داده با PySpark - آخرین آپدیت

دانلود The Complete Data Engineering Bootcamp with PySpark

شروع مسیر مهندسی داده Start Your Data Engineering Journey

چرا Spark مشکلات واقعی ETL را حل می‌کند Why Spark Solves Real ETL Problems

نقش Spark در خط لوله‌های داده Spark’s Role in Data Pipelines

معرفی سریع Spark Jobs، Stages و DAGs Spark Jobs, Stages, DAGs — Quick Intro

راه‌اندازی استک مهندسی داده Set Up Your Data Engineering Stack

آنچه راه‌اندازی خواهید کرد – Spark + Airflow + HDFS در Docker What You’ll Set Up – Spark + Airflow + HDFS in Docker

نصب WSL2 و Docker Install WSL2 + Docker

ایجاد تنظیمات Docker Compose Create Docker Compose Setup

یک دستور: اجرای Spark، Airflow، HDFS و Jupyter One Command: Launch Spark, Airflow, HDFS, Jupyter

راهنمای عیب‌یابی تنظیمات Docker Compose Docker Compose Setup - Troubleshooting Guide

بررسی Spark UI، Airflow UI و HDFS UI Explore Spark UI, Airflow UI, HDFS UI

بررسی HDFS Explore HDFS

استفاده از PySpark Shell Use PySpark Shell

ساخت و تست کارهای PySpark ETL Build and Test PySpark ETL Jobs

بارگذاری و بررسی فایل‌ها در Jupyter و PySpark Shell Load & Explore Files in Jupyter and PySpark Shell

ساخت منطق ETL با استفاده از DataFrame API (اتصال، تبدیل، نوشتن) Build ETL Logic Using DataFrame API (Joins, Transforms, Write)

اجرای همان ETL در Spark SQL Perform Same ETL in Spark SQL

نوشتن اسکریپت‌های تمیز PySpark Write Clean PySpark Scripts

ارسال کارها با استفاده از spark submit Submit Jobs Using spark-submit

(اختیاری) نحوه پیمایش در اپلیکیشن‌های Spark (Optional)How to Navigate Spark-apps

پروژه واقعی: خط لوله ETL فروش (Cron) Real Project: Sales ETL Pipeline (Cron)

درک نیازمندی‌های ETL فروش Understand Sales ETL Requirement

ساخت خط لوله ETL فروش با استفاده از Pyspark Shell Build the Sales ETL Pipeline Using Pyspark Shell

ایجاد یک اسکریپت PySpark قابل استفاده مجدد Create a Reusable PySpark Script

اسکریپت Shell دینامیک برای استقرار Dynamic Shell Script for Deployment

زمان‌بندی اجرای روزانه با Cron (شبیه‌سازی محیط Prod سبک) Schedule Daily Run with Cron (Simulate Lightweight Prod)

جمع‌بندی و یادگیری‌های کلیدی Wrap-Up and Key Learnings

یادداشت‌ها و دستورات استفاده شده در خط لوله ETL فروش Notes/Commands used in Sales ETL Pipeline

پروژه واقعی: خط لوله ETL مشتریان (Airflow و HDFS) Real Project: Customer ETL Pipeline (Airflow & HDFS)

درک نیازمندی‌های ETL مشتریان Understand Customer ETL Requirement

ساخت خط لوله با استفاده از Jupyter notebook Build Pipeline using Jupyter notebook

تبدیل جریان کاری به اسکریپت خط لوله Convert Workflow into Pipeline Script

ایجاد اسکریپت Shell Wrapper Create Shell Wrapper script

اتوماسیون خط لوله با Airflow Automate Pipeline with Airflow

جمع‌بندی و درس‌های آموخته شده Wrap-Up and Lessons Learned

آماده برای تولید: خط لوله‌های Dev در مقابل Prod Production Ready: Dev vs Prod Pipelines

چرا تفاوت Dev و Prod مهم است – بهترین تجربیات شرکتی Why Dev vs Prod Matters – Company Best Practices

ایجاد Env shell برای دینامیک کردن خط لوله Create Env shell to make Pipeline Dynamic

تغییر بین محیط‌های Dev و Prod Switch Between Dev and Prod

تنظیمات خط لوله آماده برای محیط تولید Your Production-Ready Pipeline Setup

جریان‌های کاری ــ Git، تحویل پروژه و استقرار Workflows — Git, Handoffs, Deployments

جریان‌های کاری واقعی Git (Dev, QA, Prod) Real Git Workflows (Dev, QA, Prod)

شبیه‌سازی تحویل‌های تیمی مبتنی بر تیکت Simulate Ticket-Based Team Handoffs

سپاسگزاری Thank you!!

سپاسگزاری Thank you

نمایش نظرات

https://donyad.com/d/479acb