لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش پروژه مهندسی داده با SQL، پایتون، Airflow، داکر و CI/CD
- آخرین آپدیت
دانلود Data Engineering Project SQL, Python, Airflow, Docker, CI/CD
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
با یادگیری APIها، SQL، پایتون، داکر، Airflow، CI/CD، تستهای عملکردی و کیفیت داده، به یک مهندس داده تبدیل شوید!
در این دوره، اسکریپتهای پایتون برای استخراج دادهها از طریق تعامل با APIها با استفاده از Postman، بارگذاری در انبار داده (Data Warehouse) و تبدیل دادهها (ELT) را خواهید ساخت.
از PostgreSQL به عنوان انبار داده استفاده کنید و از طریق psql و DBeaver با آن تعامل داشته باشید.
بیاموزید که چگونه برنامههای داده را با استفاده از Docker کانتینریزه کنید تا خط لولههای داده (Data Pipelines) شما قابل حمل و به راحتی مقیاسپذیر شوند.
مبانی ارکستراسیون و اتوماسیون گردش کارهای داده را با Apache Airflow، ابزاری ضروری در مهندسی داده، به طور کامل فرا بگیرید.
درک کنید که چگونه تستهای واحد (Unit)، یکپارچهسازی (Integration) و سرتاسری (E2E) را با ترکیبی از pytest و تستهای DAG در Airflow برای اعتبارسنجی خط لولههای داده اجرا کنید.
تستهای کیفیت داده را با استفاده از SODA پیادهسازی کنید تا مطمئن شوید دادههای شما با الزامات تجاری و فنی مطابقت دارند.
یاد بگیرید که خط لولههای استقرار (Deployment Pipelines) را با استفاده از GitHub Actions خودکار کنید تا یکپارچهسازی و تحویل مداوم (CI/CD) را تضمین نمایید.
پیش نیازها: حداقل ۸ گیگابایت رم (۱۶ گیگابایت برای عملکرد روانتر توصیه میشود)
نصب پایتون، داکر و گیت برای اجرای کدها و دسترسی به دوره
دانش SQL در سطح مقدماتی
دانش پایتون در سطح متوسط
درک اولیه از داکر
آشنایی با CI/CD مزیت محسوب میشود اما الزامی نیست
مهندسی داده ستون فقرات شرکتهای مدرن دادهمحور است. برای برتری در این مسیر، شما به تجربه کار با ابزارها و فرآیندهایی نیاز دارید که خط لولههای داده را در محیطهای واقعی مدیریت میکنند. این دوره یادگیری عملی و پروژه-محور را با ابزارهای PostgreSQL، Python، Docker، Airflow، Postman، SODA و Github Actions به شما ارائه میدهد. من شما را در نحوه استفاده از این ابزارها راهنمایی خواهم کرد.
آنچه در این دوره خواهید آموخت:
پایتون برای مهندسی داده: ساخت اسکریپتهای پایتون برای استخراج دادهها از APIها با Postman، بارگذاری در انبار داده و تبدیل (ELT). در این دوره از نسخه ۳.۱۰ پایتون استفاده میکنیم.
SQL برای خط لولههای داده: استفاده از PostgreSQL به عنوان انبار داده و تعامل با آن از طریق psql و DBeaver.
داکر برای استقرار کانتینریزه: یادگیری نحوه کانتینریزه کردن برنامههای داده با Docker برای افزایش قابلیت حمل و مقیاسپذیری.
Airflow برای اتوماسیون گردش کار: تسلط بر مبانی ارکستراسیون و خودکارسازی جریانهای داده با Apache Airflow (نسخه ۲.۹.۲).
تست و تضمین کیفیت داده: اجرای تستهای Unit، Integration و E2E با pytest و DAG tests در Airflow و پیادهسازی تستهای کیفیت داده با SODA.
CI/CD برای تست و استقرار خودکار: اتوماسیون خط لولههای استقرار با استفاده از GitHub Actions جهت تضمین تحویل مداوم و بدون خطا.
سرفصل ها و درس ها
مقدمه
Introduction
خوشآمدگویی!
Welcome!
پیشنیازها
Prerequisties
نصب ابزارهای دوره [مهم]
Tools Installation for Course - [IMPORTANT]
مرور کلی پروژه
Project Overview
ساختار کدنویسی
Building the Code
ضمیمه
APPENDIX
استخراج داده با استفاده از API
Data Extraction using API
مقدمهای بر استخراج داده
Data Extraction Introduction
API چیست؟
What is an API
دریافت کلید API یوتیوب
Getting the Youtube API Key
گوگل کلود شل (Google Cloud Shell)
Google Cloud Shell
یوتیوب API Explorer و Postman
Youtube API Explorer and Postman
تنظیم Git Remote
Setting Up Git Remote
ساخت محیط مجازی (Virtual Environment)
Create Virtual Environment
تحلیل متغیرهای استخراج داده
Analysis of Data Extraction Variables
ساخت اسکریپت آمار ویدیوها - بخش اول: Playlist ID
Building the Videos Statistics script - Part 1 Playlist ID
معرفی فایل .env
Introducing the .env
ساخت اسکریپت آمار ویدیوها - بخش دوم: شناسههای یکتای ویدیو
Building the Videos Statistics script - Part 2 Unique Video IDs
ساخت اسکریپت آمار ویدیوها - بخش سوم: دادههای ویدیو
Building the Videos Statistics script - Part 3 Video Data
ساخت اسکریپت آمار ویدیوها - بخش چهارم: ذخیره در JSON
Building the Videos Statistics script - Part 4 Save to JSON
قرار دادن پوشه logs در .gitignore
Put logs/ folder in .gitignore
نمایش نظرات