انباره داده و ETL در ابر AWS: راهنمای جامع

یادگیری جامع انباره داده، ETL، اتوماسیون و تحلیل داده در AWS با Redshift، Glue، Athena و QuickSight.

راه اندازی انباره داده در ابر آمازون با Redshift از ابتدا

این بخش به شما نحوه راه‌اندازی یک انباره داده قدرتمند در سرویس Redshift آمازون را از پایه آموزش می‌دهد.

آشنایی با AWS Athena و کاربردهای آن

با سرویس AWS Athena آشنا شوید و بیاموزید که چه زمانی از آن برای پرس‌وجوهای تعاملی بر روی داده‌هایتان استفاده کنید.

ذخیره‌سازی داده‌ها در دریاچه‌های داده S3 با فرمت پارکت

نحوه ذخیره داده‌ها در دریاچه‌های داده S3 با استفاده از فرمت‌های ستونی فایل Parquet را بیاموزید و فرآیند اسکن داده‌ها با Athena را بهینه کنید.

اتوماسیون فرآیندهای ETL با استفاده از کامپوننت‌های بدون سرور AWS

یاد بگیرید چگونه فرآیندهای ETL را با استفاده از کامپوننت‌های بدون سرور مختلف مانند AWS Glue، Data Pipeline و Lambda Functions خودکار کنید.

متمرکزسازی داده‌ها با Redshift Spectrum

با Redshift Spectrum، داده‌های خود را در یک مکان مرکزی مدیریت و تحلیل کنید.

فعال‌سازی و خودکارسازی مشاغل Glue با Lambda Functions

نحوه فعال‌سازی و خودکارسازی مشاغل AWS Glue را با استفاده از Lambda Functions بیاموزید.

استخراج داده‌ها در QuickSight برای تحلیل و مصورسازی

نحوه انتقال داده‌ها به QuickSight، ابزار تحلیل و مصورسازی داده (BI) از AWS را یاد بگیرید.

چرا این دوره را انتخاب کنید؟

AWS Cloud به دلیل اکوسیستم گسترده‌اش می‌تواند برای بسیاری از افراد ترسناک و گیج‌کننده به نظر برسد، اما این دوره یادگیری عملی راه‌اندازی انباره داده در Redshift یا زیرساخت BI را از ابتدا برای همه آسان می‌کند.

دانشمندان داده، تحلیلگران داده و تحلیلگران کسب‌وکار به‌زودی (اگر در حال حاضر نیستند) باید در همه زمینه‌ها توانا باشند و جنبه فنی ورود داده‌ها، مهندسی داده و انباره داده را مدیریت کنند.

هر کسی که درک اساسی از نحوه کارکرد ابر داشته باشد، می‌تواند از این دوره بهره‌مند شود زیرا:

این دوره با در نظر گرفتن چرخه عمر کامل یک پروژه معمول مهندسی داده طراحی شده است.
راهکارهای عملی برای موارد استفاده واقعی ارائه می‌دهد.

محتوای دوره

راه‌اندازی انباره داده در AWS Redshift از ابتدا
مفاهیم اساسی انباره داده
نوشتن مشاغل AWS Glue بدون سرور (pyspark و python shell) برای ETL و پردازش دسته‌ای
AWS Athena برای تحلیل‌های موردی (چه زمانی از Athena استفاده کنیم)
AWS Data Pipeline برای همگام‌سازی داده‌های افزایشی
Lambda functions برای فعال‌سازی و خودکارسازی فرآیندهای ETL/همگام‌سازی داده
راه‌اندازی QuickSight، تحلیل‌ها و داشبوردها

پیش‌نیازهای دوره

Python / Sql (کاملاً ضروری)
PySpark (باید بدانید چگونه چند اسکریپت پایه PySpark بنویسید)
میل به کاوش، یادگیری و تلاش بیشتر برای موفقیت
یک حساب فعال AWS

نکات مهم

نکته مهم: این دوره از سطوح رایگان Redshift و RDS استفاده می‌کند، بنابراین تا زمانی که از سطح رایگان فراتر نروید، هزینه‌ای برای شما منظور نخواهد شد که این میزان برای تمرین کافی است.

همچنین، این دوره از رابط کاربری AWS در مرورگر برای ایجاد کلاسترها و راه‌اندازی مشاغل استفاده می‌کند و هیچ اسکریپت نویسی در خط فرمان (bash) وجود ندارد. شما می‌توانید از هر سیستم عاملی برای انجام جلسات عملی در این دوره استفاده کنید.

این دوره از نظر کدنویسی سنگین نیست؛ تنها ۳۵٪ آن مربوط به کدنویسی است و بقیه مربوط به اجرا، درک و اتصال اجزای مختلف به یکدیگر است. هدف اصلی این دوره، آگاهی و راحتی همه با تمام ابزارها/ویژگی‌های استفاده شده در دوره است.

نکات اضافی

سعی کنید ویدیوها را با سرعت 1.2X تماشا کنید.
هر بار که روی یک جزء یا ویژگی جدید کار می‌کنید، در مورد ابزارهای دیگر با همان هدف تحقیق کنید و تفاوت‌ها و جنبه‌های آن‌ها را بررسی کنید. به عنوان مثال، Redshift/Athena در مقابل Snowflake یا Bigquery، یا QuickSight در مقابل PowerBI یا Microstrategy.

آموزش مهندسی داده، ETL بدون سرور و BI در ابر آمازون - آخرین آپدیت

دانلود Data Engineering, Serverless ETL & BI on Amazon Cloud

راه اندازی انباره داده در ابر آمازون با Redshift از ابتدا

آشنایی با AWS Athena و کاربردهای آن

ذخیره‌سازی داده‌ها در دریاچه‌های داده S3 با فرمت پارکت

اتوماسیون فرآیندهای ETL با استفاده از کامپوننت‌های بدون سرور AWS

متمرکزسازی داده‌ها با Redshift Spectrum

فعال‌سازی و خودکارسازی مشاغل Glue با Lambda Functions

استخراج داده‌ها در QuickSight برای تحلیل و مصورسازی

چرا این دوره را انتخاب کنید؟

محتوای دوره

پیش‌نیازهای دوره

نکات مهم

نکات اضافی

درباره دوره و مقدمه About the Course & Introduction

مرور کلی دوره و پروژه Course & Project Overview

درس ۴ – بازخورد و اطلاعات بیشتر Lecture 4 - Feedback and Learn More

اجزای صورتحساب AWS و احتیاط‌های لازم AWS Billing Components and Precautions to be taken

شروع کار با AWS Glue، MySQL RDS و Redshift Getting Started with AWS Glue, MySQL RDS and Redshift

مقدمه بخش Section Introduction

مقدمه ای بر Redshift Introduction to Redshift

Redshift در مقابل Snowflake در مقابل BigQuery Redshift Vs Snowflake Vs Bigquery

مقدمه ای بر AWS Glue Introduction to AWS Glue

آزمایشگاه – ایجاد نمونه MySQL در AWS RDS Lab- Create MySQL Instance on AWS RDS

آزمایشگاه – ایجاد پایگاه داده/جدول MySQL و آماده‌سازی داده‌ها Lab-Create MySQL DB/Tables and Data Preparation

آزمایشگاه – استقرار Job استخراج Glue از MySQL به S3 Lab- Deploy Glue Extraction Job from MySQL To S3

آزمایشگاه – استفاده از AWS Secrets Manager و آرگومان‌های Job Glue Lab- Use AWS Secrets Manager and Glue Job Arguments

آزمایشگاه – ایجاد و راه‌اندازی کلاستر Redshift Lab- Create and Setup Redshift Cluster

آزمایشگاه – وارد کردن داده‌ها به Redshift با استفاده از دستورات Copy Lab- Ingest Data into Redshift using Copy Commands

آزمایشگاه – استقرار Jobهای Glue برای ورود داده به Redshift Lab- Deploy Glue Jobs for Redshift Data Ingestion

مقدمه ای بر AWS Step Functions Introduction to AWS Step Functions

آزمایشگاه – اجرای Step Functions برای Jobهای AWS Glue Lab - Execute Step Functions for AWS Glue Jobs

آزمایشگاه – مدیریت بارگذاری افزایشی داده‌ها در Redshift Lab - Handle Incremental Data Loads into Redshift

شروع کار با Redshift و Mysql RDS Getting Started with Redshift and Mysql RDS

بررسی اجمالی Redshift Redshift Overview

Redshift در مقابل BigQuery Redshift vs BigQuery

Redshift - سازگاری داده ها Redshift - Data Consistency

آزمایشگاه: نصب نمونه Mysql RDS در AWS Cloud Lab:Setup Mysql RDS Instance on AWS Cloud

آزمایشگاه: واردات پایگاه داده Mysql RDS Lab: Mysql RDS Database Import

با استفاده از DBeaver داده ها را در Mysql RDS بارگیری کنید Load Data into Mysql RDS using DBeaver

آزمایشگاه: Redshift Cluster Setup Lab : Redshift Cluster Setup

آزمایشگاه: Sql Client برای Redshift و RDS Mysql Lab : Sql Client for Redshift and RDS Mysql

دریاچه‌های داده و مدیریت منابع داده خارجی Data Lakes & Handling External Data Sources

مرور و مقدمه بخش Section Overview and Introduction

آزمایشگاه – راه‌اندازی AWS Glue Crawler Lab - AWS Glue Crawler Setup

آزمایشگاه – Athena – توضیح اسکن داده و جدول Lab - Athena - Data and Table Scan Explanation

آزمایشگاه – توسعه محلی Pyspark Lab - Pyspark Development Local

آزمایشگاه – انتقال اسکریپت محلی Pyspark به AWS Glue Lab - Port Local Pyspark Script to AWS Glue

آزمایشگاه – AWS Glue Pyspark – فرمت فایل Parquet و فشرده‌سازی Snappy Lab - AWS Glue Pyspark - Parquet File Format & Snappy Compression

آزمایشگاه – AWS Lambda برای راه‌اندازی Jobهای Glue Lab - AWS Lambda to Trigger Glue Jobs

آزمایشگاه – اجرای Glue Crawler – پر کردن پارتیشن‌ها در کاتالوگ داده Lab - Glue Crawler Run - Populate Partitions in Data Catalog

ETL و همگام سازی داده های تراکنش با Redshift DWH ETL and Syncing Transactional Data with Redshift DWH

مقدمه - جریان داده ها Introduction - Flow of Data

درک اجزای مختلف و نقش آنها Understanding the different Components and their Roles

طراحی انبار داده شما - مفاهیم اساسی Designing your Data Warehouse - Basic Concepts

آزمایشگاه - AWS DataPipeline - شروع به کار با اولین کار واردات Lab - AWS DataPipeline - Getting Started with the first import Job

آزمایشگاه: یک بار داده های تاریخی را با استفاده از دستور کپی در جداول Redshift بارگذاری کنید Lab : One-time Load Historical Data into Redshift Tables using Copy Command

چسب AWS - نمای کلی و مرور AWS Glue - Overview and Walkthrough

آزمایشگاه - AWS DataPipeline - راه اندازی اولین مشاغل ساعتی ما برای بارگذاری داده های افزایشی Lab - AWS DataPipeline - Setup our first Hourly Jobs for Incremental Data Loads

Lab - AWS Glue - First Python Shell Job برای بارگذاری افزایشی داده در Redshift Lab - AWS Glue - First Python Shell Job for incremental Data loads into Redshift

آزمایشگاه - عملکرد AWS Lambda برای فعال کردن کار چسب ما Lab - AWS Lambda Function to Trigger our Glue Job

آزمایشگاه - AWS DataPipeline - دومین کار واردات Lab - AWS DataPipeline - Second import Job

آزمایشگاه: یک بار داده های تاریخی را با استفاده از دستور کپی در جداول Redshift بارگذاری کنید Lab : One-time Load Historical Data into Redshift Tables using Copy Command

Lab - AWS Glue - Python Shell Job برای بارگذاری تدریجی داده در Redshift Lab - AWS Glue - Python Shell Job for incremental Data loads into Redshift

AWS Glue Python - ظرفیت AWS Glue Python - Capacity

مهم - رویکرد همگام سازی داده ها و تصویر بزرگتر Important - Data Syncing Approach and the Bigger picture

Redshift - Cluster Snapshot و بازیابی Redshift - Cluster Snapshot and restoring

سایر جداول Mysql را همگام کنید Sync the Other Mysql Tables

Redshift Spectrum Redshift Spectrum

مقدمه ای بر Redshift Spectrum Introduction to Redshift Spectrum

آزمایشگاه – Redshift Spectrum | ایجاد اسکیمای خارجی Lab - Redshift Spectrum | Create External Schema

آزمایشگاه – Redshift Spectrum | جوین‌های بین پایگاه داده Lab - Redshift Spectrum | Cross Database Joins

دریاچه های داده و مدیریت منابع داده های خارجی Data Lakes & Handling External Data Sources

بخش بررسی اجمالی و مقدمه Section Overview and Introduction

آزمایشگاه - راه اندازی خزنده چسب AWS Lab - AWS Glue Crawler Setup

آزمایشگاه - آتنا - توضیح اسکن داده ها و جدول Lab - Athena - Data and Table Scan Explanation

آزمایشگاه - Pyspark توسعه محلی Lab - Pyspark Development Local

آزمایشگاه - پورت محلی Pyspark اسکریپت به چسب AWS Lab - Port Local Pyspark Script to AWS Glue

آزمایشگاه - AWS Glue Pyspark - قالب فایل پارکت و فشرده‌سازی سریع Lab - AWS Glue Pyspark - Parquet File Format & Snappy Compression

آزمایشگاه - AWS Lambda برای فعال کردن کار چسب Lab - AWS Lambda to Trigger Glue Jobs