آموزش پروژه مهندسی داده با SQL، پایتون، Airflow، داکر و CI/CD - آخرین آپدیت

دانلود Data Engineering Project SQL, Python, Airflow, Docker, CI/CD

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: با یادگیری APIها، SQL، پایتون، داکر، Airflow، CI/CD، تست‌های عملکردی و کیفیت داده، به یک مهندس داده تبدیل شوید! در این دوره، اسکریپت‌های پایتون برای استخراج داده‌ها از طریق تعامل با APIها با استفاده از Postman، بارگذاری در انبار داده (Data Warehouse) و تبدیل داده‌ها (ELT) را خواهید ساخت. از PostgreSQL به عنوان انبار داده استفاده کنید و از طریق psql و DBeaver با آن تعامل داشته باشید. بیاموزید که چگونه برنامه‌های داده را با استفاده از Docker کانتینریزه کنید تا خط لوله‌های داده (Data Pipelines) شما قابل حمل و به راحتی مقیاس‌پذیر شوند. مبانی ارکستراسیون و اتوماسیون گردش کارهای داده را با Apache Airflow، ابزاری ضروری در مهندسی داده، به طور کامل فرا بگیرید. درک کنید که چگونه تست‌های واحد (Unit)، یکپارچه‌سازی (Integration) و سرتاسری (E2E) را با ترکیبی از pytest و تست‌های DAG در Airflow برای اعتبارسنجی خط لوله‌های داده اجرا کنید. تست‌های کیفیت داده را با استفاده از SODA پیاده‌سازی کنید تا مطمئن شوید داده‌های شما با الزامات تجاری و فنی مطابقت دارند. یاد بگیرید که خط لوله‌های استقرار (Deployment Pipelines) را با استفاده از GitHub Actions خودکار کنید تا یکپارچه‌سازی و تحویل مداوم (CI/CD) را تضمین نمایید. پیش نیازها: حداقل ۸ گیگابایت رم (۱۶ گیگابایت برای عملکرد روان‌تر توصیه می‌شود) نصب پایتون، داکر و گیت برای اجرای کدها و دسترسی به دوره دانش SQL در سطح مقدماتی دانش پایتون در سطح متوسط درک اولیه از داکر آشنایی با CI/CD مزیت محسوب می‌شود اما الزامی نیست

مهندسی داده ستون فقرات شرکت‌های مدرن داده‌محور است. برای برتری در این مسیر، شما به تجربه کار با ابزارها و فرآیندهایی نیاز دارید که خط لوله‌های داده را در محیط‌های واقعی مدیریت می‌کنند. این دوره یادگیری عملی و پروژه-محور را با ابزارهای PostgreSQL، Python، Docker، Airflow، Postman، SODA و Github Actions به شما ارائه می‌دهد. من شما را در نحوه استفاده از این ابزارها راهنمایی خواهم کرد.


آنچه در این دوره خواهید آموخت:


  1. پایتون برای مهندسی داده: ساخت اسکریپت‌های پایتون برای استخراج داده‌ها از APIها با Postman، بارگذاری در انبار داده و تبدیل (ELT). در این دوره از نسخه ۳.۱۰ پایتون استفاده می‌کنیم.

  2. SQL برای خط لوله‌های داده: استفاده از PostgreSQL به عنوان انبار داده و تعامل با آن از طریق psql و DBeaver.

  3. داکر برای استقرار کانتینریزه: یادگیری نحوه کانتینریزه کردن برنامه‌های داده با Docker برای افزایش قابلیت حمل و مقیاس‌پذیری.

  4. Airflow برای اتوماسیون گردش کار: تسلط بر مبانی ارکستراسیون و خودکارسازی جریان‌های داده با Apache Airflow (نسخه ۲.۹.۲).

  5. تست و تضمین کیفیت داده: اجرای تست‌های Unit، Integration و E2E با pytest و DAG tests در Airflow و پیاده‌سازی تست‌های کیفیت داده با SODA.

  6. CI/CD برای تست و استقرار خودکار: اتوماسیون خط لوله‌های استقرار با استفاده از GitHub Actions جهت تضمین تحویل مداوم و بدون خطا.


سرفصل ها و درس ها

مقدمه Introduction

  • خوش‌آمدگویی! Welcome!

  • پیش‌نیازها Prerequisties

  • نصب ابزارهای دوره [مهم] Tools Installation for Course - [IMPORTANT]

  • مرور کلی پروژه Project Overview

  • ساختار کدنویسی Building the Code

  • ضمیمه APPENDIX

استخراج داده با استفاده از API Data Extraction using API

  • مقدمه‌ای بر استخراج داده Data Extraction Introduction

  • API چیست؟ What is an API

  • دریافت کلید API یوتیوب Getting the Youtube API Key

  • گوگل کلود شل (Google Cloud Shell) Google Cloud Shell

  • یوتیوب API Explorer و Postman Youtube API Explorer and Postman

  • تنظیم Git Remote Setting Up Git Remote

  • ساخت محیط مجازی (Virtual Environment) Create Virtual Environment

  • تحلیل متغیرهای استخراج داده Analysis of Data Extraction Variables

  • ساخت اسکریپت آمار ویدیوها - بخش اول: Playlist ID Building the Videos Statistics script - Part 1 Playlist ID

  • معرفی فایل .env Introducing the .env

  • ساخت اسکریپت آمار ویدیوها - بخش دوم: شناسه‌های یکتای ویدیو Building the Videos Statistics script - Part 2 Unique Video IDs

  • ساخت اسکریپت آمار ویدیوها - بخش سوم: داده‌های ویدیو Building the Videos Statistics script - Part 3 Video Data

  • ساخت اسکریپت آمار ویدیوها - بخش چهارم: ذخیره در JSON Building the Videos Statistics script - Part 4 Save to JSON

  • قرار دادن پوشه logs در .gitignore Put logs/ folder in .gitignore

  • ضمیمه APPENDIX

داکر Docker

  • چرا داکر؟ Why Docker

  • فایل Dockerfile Dockerfile

  • نسخه‌های dockerfile [مهم] dockerfile versions - [IMPORTANT]

  • ساخت Image داکر Build the Docker Image

  • معماری Airflow Airflow Architecture

  • ساختار دایرکتوری‌های Airflow Airflow Directories

  • فایل .env .env file

  • اصلاح فایل .env Amending the .env

  • فایل docker compose.yaml [بسیار مهم] docker-compose.yaml file to use - [VERY IMPORTANT]

  • اسکریپت init multiple databases.sh [بسیار مهم] init-multiple-databases.sh script - [VERY IMPORTANT]

  • داکر کامپوز (Docker Compose) Docker Compose

  • دستورات داکر docker commands

  • توقف کانتینرهای داکر قبل از خاموش کردن سیستم [مهم] Stopping Docker containers before shutting down laptop - [IMPORTANT]

  • ضمیمه APPENDIX

ایر فلو Airflow

  • مقدمه‌ای بر Airflow Airflow Introduction

  • بازنویسی اسکریپت‌ها برای استفاده در Airflow Refactoring of scripts to use Airflow

  • ضمیمه APPENDIX

انبار داده پستگرس Postgres Data Warehouse

  • مقدمه‌ای بر انبار داده Postgres Postgres Data Warehouse Introduction

  • بارگذاری در انبار داده و تبدیل‌ها Loading to Data Warehouse & Transformations

  • تنظیم اتصال به انبار داده با Airflow Setting up Connection to Data Warehouse using Airflow

  • ساخت Schemaها و جداول Creating the Schemas and Tables

  • بارگذاری داده‌های JSON Loading the JSON data

  • عملیات Insert، Update و Delete Inserts, Updates & Deletes

  • تبدیل داده‌ها (Transformations) Transformations

  • پر کردن جداول Staging و Core Populating Staging and Core Tables

  • تعریف DAG انبار داده و دیباگینگ Defining the Data Warehouse DAG & Debugging

  • تعامل با انبار داده با استفاده از Dbeaver Interacting with the Data Warehouse using Dbeaver

  • ضمیمه APPENDIX

تست و اعتبارسنجی Testing

  • مقدمه‌ای بر تست‌نویسی Testing Introduction

  • اصلاحات در فایل .env Amendment to .env

  • استفاده از Soda برای تست کیفیت داده Using Soda for Data Quality Tests

  • یکپارچه‌سازی Airflow برای تست‌های DQ Airflow Integration for DQ Tests

  • مقدمه‌ای بر تست‌های عملکردی (Functional Tests) Functional Tests Introduction

  • تست‌های واحد (Unit Tests) Unit Tests

  • تست‌های یکپارچه‌سازی (Integration Tests) Integration Tests

  • تست سرتاسری (E2E) End to End (E2E) Test

  • بازسازی ساختار DAGها DAGs Re-Structure

  • ضمیمه APPENDIX

سی‌آی‌سی‌دی (CI/CD) CI/CD

  • مقدمه‌ای بر CI/CD CI/CD Introduction

  • کامیت و پوش (Commit and Push) Commit and Push

  • بخش اول CI/CD: ساخت Image داکر CI-CD Part 1 - Docker Image Builds

  • بخش دوم CI/CD: تست‌ها CI-CD Part 2 - Testing

  • اجرای گردش کار GitHub Actions Github Actions Workflow Dispatch

  • ضمیمه APPENDIX

  • پایان دوره The End

نمایش نظرات

آموزش پروژه مهندسی داده با SQL، پایتون، Airflow، داکر و CI/CD
جزییات دوره
5 hours
66
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
5,158
4.5 از 5
ندارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Matthew Schembri Matthew Schembri

مهندس داده و تحلیل داده