لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش بوتکمپ جامع مهندسی داده با PySpark
- آخرین آپدیت
دانلود The Complete Data Engineering Bootcamp with PySpark
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
بیاموزید که مهندسان داده واقعی چگونه خط لولههای PySpark را با استفاده از Airflow، Git و جریانهای کاری در سطح تولید (Production) میسازند و مستقر میکنند.
راهاندازی کامل استک داده: Docker، Spark، Airflow، HDFS و Jupyter
ساخت و استقرار کارهای ETL با PySpark با استفاده از DataFrame API و Spark SQL.
ساخت و استقرار خط لولههای PySpark با Airflow و cron
سازماندهی حرفهای پروژه با اسکریپتها، فایلهای پیکربندی، محیطهای shell و Git.
شبیهسازی جریانهای کاری واقعی مهندسی داده: شاخهبندی Git، بازبینی کد (Code Review) و استقرارهای مبتنی بر تیکت.
پیش نیازها: دانش پایه پایتون
آشنایی با SQL مفید است اما اجباری نیست.
به هیچ تجربه قبلی در Spark، Docker یا Airflow نیاز نیست؛ همه موارد گامبهگام آموزش داده میشوند.
کامپیوتری با حداقل ۸ گیگابایت رم (۱۲ گیگابایت توصیه میشود) و ۴۰ گیگابایت فضای خالی دیسک (۵۰ گیگابایت توصیه میشود)
اتصال اینترنت مناسب
آیا میخواهید بدون اتلاف وقت روی تئوریهای انتزاعی یا ابزارهای قدیمی، به یک مهندس داده با استفاده از PySpark تبدیل شوید؟ این دوره دقیقاً آنچه را که مهندسان داده حرفهای با استفاده از ابزارها، ساختارها و جریانهای کاری محیطهای تولید واقعی انجام میدهند، به شما نشان میدهد.
آنچه از طریق پروژههای واقعی خواهید آموخت:
راهاندازی کامل استک مهندسی داده با Docker، Spark، Airflow، HDFS و Jupyter.
نوشتن و استقرار کارهای PySpark ETL آماده برای محیط تولید با استفاده از DataFrame API و Spark SQL.
اتوماسیون و زمانبندی خط لولهها با استفاده از cron، Airflow DAGs و مانیتورینگ آنها با Spark UI.
از روز اول، شما مانند یک مهندس داده واقعی کار خواهید کرد:
تسلط بر شاخهبندی Git، ادغام (Merge) و جریانهای کاری کنترل نسخه در دنیای واقعی.
ساختاربندی حرفهای پروژهها: پوشههای scripts/، configs/، محیط env shell و ماژولهای قابل استفاده مجدد.
تغییر بدون وقفه بین محیطهای توسعه (Development) و تولید (Production).
شبیهسازی استقرارهای مبتنی بر تیکت و همکاری تیمی ــ دقیقاً مشابه شرکتهای واقعی.
چه چیزی این دوره را متفاوت میکند؟
بسیاری از دورههای PySpark فقط سینتکس را آموزش میدهند. این دوره شما را برای خط لولههای داده واقعی آماده میکند:
درک دقیق جایگاه Spark در جریانهای کاری دادههای تولیدی.
ساخت کدبیسهای ماژولار و آماده برای محیط Production.
استقرار کارها با استفاده از spark-submit، cron و Airflow.
مانیتورینگ، عیبیابی و بهینهسازی خط لولهها با استفاده از Spark UI، لاگها، کشینگ و تکنیکهای تنظیم (Tuning).
این دوره یک راهنمای عملی برای ساخت و استقرار خط لولههای داده واقعی است ــ درست مانند یک مهندس داده حرفهای.
شما بهطور خاص موارد زیر را خواهید آموخت:
راهاندازی محیط مهندسی داده مبتنی بر Docker شامل Spark، Airflow، HDFS و Jupyter.
ساخت کارهای قابل اعتماد PySpark ETL با استفاده از DataFrames و Spark SQL.
اتوماسیون خط لولهها با spark-submit، Airflow DAGs و زمانبندی cron.
سازماندهی کد با ساختارهای پروژه واقعی و جریانهای کاری Git.
تکمیل دو پروژه واقعی مهندسی داده ــ دقیقاً همانگونه که تیمهای مهندسی داده کار میکنند.
در پایان این دوره، شما مهارتهای عملی و در سطح تولید خواهید داشت که مهندسان داده واقعی روزانه از آنها استفاده میکنند.
سرفصل ها و درس ها
شروع مسیر مهندسی داده
Start Your Data Engineering Journey
چرا Spark مشکلات واقعی ETL را حل میکند
Why Spark Solves Real ETL Problems
نقش Spark در خط لولههای داده
Spark’s Role in Data Pipelines
نمایش نظرات