لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش پروژه جامع مهندسی داده GCP - حوزه خردهفروشی (Retailer)
- آخرین آپدیت
دانلود The Complete GCP Data Engineering Project - Retailer Domain
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
یک پروژه استاندارد صنعتی در حوزه خردهفروشی با استفاده از سرویسهای GCP مانند GCS، BigQuery، Dataproc، Composer، GitHub و CI/CD
درک کامل یک پروژه مهندسی داده End-to-End برای حوزه خردهفروشی
طراحی و پیادهسازی خط لولههای (Pipelines) ETL مقیاسپذیر برای دادههای تجاری
پیادهسازی تکنیکهای کلیدی مانند دادههای افزایشی (Incremental Data)، SCD2، رویکرد متاداده-محور (Metadata driven)، معماری مدالیون (Medallion Arch)، مدیریت خطا، CDM، CI/CD و بسیاری موارد دیگر...
توسعه و استقرار راهکارهای داده با استفاده از متدهای CI/CD
پیش نیازها: دانش مقدماتی زبان پایتون و SQL
این پروژه بر روی ساخت یک دریاچه داده (Data Lake) در پلتفرم ابری گوگل (GCP) برای حوزه خردهفروشی تمرکز دارد.
هدف این است که دادهها از منابع مختلف متمرکز، پاکسازی و تبدیل شوند تا تامینکنندگان خردهفروشی و شرکتهای مربوطه بتوانند فرآیندهای صورتحساب، پردازش ادعاها و ردیابی درآمد را بهینه کنند.
سرویسهای GCP مورد استفاده:
Google Cloud Storage (GCS): برای ذخیرهسازی فایلهای داده خام و پردازش شده.
BigQuery: به عنوان موتور تحلیلی برای ذخیرهسازی و پرسوجوی دادههای ساختاریافته.
Dataproc: برای پردازش دادهها در مقیاس بزرگ با استفاده از Apache Spark.
Cloud Composer (Apache Airflow): برای اتوماسیون خط لولههای ETL و مدیریت جریان کاری (Orchestration).
Cloud SQL (MySQL): برای ذخیره دادههای تراکنشی رکوردها.
GitHub & Cloud Build: برای کنترل نسخه و پیادهسازی CI/CD.
CICD: اتوماسیون خط لولههای استقرار برای پردازش دادهها و جریانهای کاری ETL.
تکنیکهای مورد استفاده:
رویکرد متاداده-محور (Metadata Driven Approach)
پیادهسازی SCD نوع ۲
مدل داده مشترک (CDM)
معماری مدالیون (Medallion Architecture)
لاگگذاری و مانیتورینگ (Logging and Monitoring)
مدیریت خطاها (Error Handling)
بهینهسازیها (Optimizations)
پیادهسازی CI/CD
و بسیاری از Best Practiceهای دیگر
منابع داده
پایگاه داده MySQL خردهفروش
پایگاه داده MySQL تامینکننده
API نظرات کاربران (api-reviews)
خروجیهای مورد انتظار
خط لوله داده بهینه: اتوماسیون جذب و تبدیل دادههای RCM.
انبار داده ساختاریافته: جداول Gold در BigQuery برای پرسوجوهای تحلیلی.
پس از تحلیل، از Looker BI برای تولید داشبوردها و گزارشها بر اساس جداول لایه Gold استفاده میشود.
تمام فرآیندها (استخراج داده، بارگذاری در GCS، تبدیل در BigQuery) توسط Apache Airflow مدیریت میشوند تا اتوماسیون، زمانبندی و نظارت تضمین شود.
سرفصل ها و درس ها
مقدمه
Introduction
لینکهای مهم
Important Links
معرفی پروژه
Project Introduction
درک پروژه و مسیر اجرایی
Understanding Project and Direction
درس ۲: آمادهسازی منابع داده – دیتابیسهای SQL، GCS، BigQuery و تنظیمات
Lecture 2: Setting up the Data sources – SQL DBs, GCS, BQ, Configs
درس ۳: پیکربندی Google Cloud Storage (GCS) به عنوان Landing Zone
Lecture 3 : Configuring Google Cloud Storage (GCS) as a landing zone
درس ۴: جذب دادهها – Dataproc، Pyspark و GCS (جلسه اول)
Lecture 4: Data Ingestion - Dataproc, Pyspark, GCS Landing-Session1
درس ۵: جذب دادهها – Dataproc، Pyspark و GCS (جلسه دوم)
Lecture 5: Data Ingestion - Dataproc, Pyspark, GCS Landing-Session2
درس ۶: جذب دادهها – Dataproc، Pyspark و GCS (جلسه سوم)
Lecture 6: Data Ingestion - Dataproc, Pyspark, GCS Landing-Session3
درس ۷: لایه برنزی (Bronze) در BigQuery
Lecture 7: BigQuery Bronze Layer
درس ۸: لایه نقرهای (Silver) در BigQuery
Lecture 8: BigQuery Silver Layer
درس ۹: لایه طلایی (Gold) در BigQuery
Lecture 9: BigQuery Gold Layer
درس ۱۰: تنظیم DAGهای Airflow برای مدیریت جریان کاری
Lecture 10: Setting up Airflow DAGS for workflow orchestration
درس ۱۱: پیادهسازی کامل CI/CD با Github، Cloud Build و Airflow
Lecture 11: complete CICD with Github, cloud build and airflow
نمایش نظرات