آموزش مهندسی داده، ETL و BI بدون سرور در آمازون کلود

Data Engineering, Serverless ETL & BI on Amazon Cloud

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: ذخیره سازی داده و ETL در AWS Cloud راه اندازی انبار داده در آمازون کلود با استفاده از Redshift از ابتدا یاد بگیرید و درک کنید AWS Athena و زمان استفاده از Athena یاد بگیرید چگونه داده ها را در S3 Data Lakes با استفاده از قالب های فایل ستونی پارکت ذخیره کنید و فرآیند را بهینه کنید. اسکن داده‌ها با استفاده از Athena Learn و خودکار کردن فرآیندهای ETL با استفاده از مؤلفه‌های بدون سرور مختلف مانند چسب AWS، خط لوله داده و توابع لامبدا متمرکز کردن داده‌ها با استفاده از Redshift Spectrum Trigger و Automate Glue با استفاده از توابع Lambda درک نحوه کشیدن داده‌ها به QuickSight که یک BI- است. ارائه گزارش/تجسم از AWS پیش نیازها: متخصص بودن در پایتون و Sql ضروری است باید دارای سابقه فنی یا تجربه قبلی در Pyspark (حداقل سطح مبتدی) باشد.

AWS Cloud به دلیل اکوسیستم گسترده‌اش می‌تواند برای بسیاری از مردم ترسناک و طاقت‌فرسا به نظر برسد، اما این دوره کار را برای هر کسی که می‌خواهد در راه‌اندازی انبار داده در Redshift یا راه‌اندازی یک BI تخصص عملی داشته باشد، آسان‌تر می‌کند. زیرساخت از ابتدا .

از دانشمندان/تحلیل‌گران/تحلیل‌گران کسب‌وکار به زودی انتظار می‌رود که (اگر قبلاً نبوده‌اند) همه کاره شوند و جنبه فنی دریافت/مهندسی/انبارداری داده‌ها را مدیریت کنند.

هرکسی که درک اولیه از نحوه عملکرد ابر را داشته باشد می تواند از این دوره بهره مند شود زیرا:

- این دوره با در نظر گرفتن چرخه عمر پایان تا پایان یک پروژه معمولی مهندسی داده طراحی شده است

- یک راه حل عملی برای موارد استفاده در دنیای واقعی

ارائه می دهد

این دوره شامل موارد زیر است:

  • راه اندازی انبار داده در AWS Redshift از ابتدا

  • مفاهیم اولیه انبارداری داده

  • نوشتن AWS Glue Jobs بدون سرور (pyspark و python shell) برای ETL و پردازش دسته ای

  • AWS Athena برای تجزیه و تحلیل ad-hoc (زمان استفاده از Athena)

  • خط لوله داده AWS برای همگام سازی داده های افزایشی

  • عملکردهای Lambda برای راه‌اندازی و خودکارسازی فرآیندهای ETL/Data Syncing

  • راه اندازی QuickSight، تجزیه و تحلیل و داشبورد

پیش نیازهای این دوره عبارتند از:

  • Python/Sql (باید مطلق)

  • PySpark (باید نحوه نوشتن چند اسکریپت اصلی Pyspark را بداند)

  • تمایل به کشف، یادگیری و تلاش بیشتر برای موفقیت

  • یک حساب فعال AWS

نکته مهم - این دوره از لایه‌های رایگان برای Redshift و RDS استفاده می‌کند، بنابراین برای آنها صورت‌حساب دریافت نمی‌کنید مگر اینکه از میزان استفاده از ردیف رایگان فراتر بروید که برای تمرین کافی از این دوره کافی است.

همچنین، این دوره از AWS UI در مرورگر برای ایجاد خوشه‌ها و راه‌اندازی مشاغل استفاده می‌کند، هیچ برنامه‌نویسی bash در آن وجود ندارد. برای انجام جلسات آزمایشگاهی این دوره می توان از هر سیستم عاملی استفاده کرد.

این دوره دارای کد فشرده یا سنگین نیست، فقط 35 درصد کدنویسی در آن وجود دارد، بقیه اجرا، درک و زنجیره‌بندی مؤلفه‌های مختلف با هم است. تمام هدف این دوره این است که همه از همه ابزارها/ویژگی های استفاده شده در این دوره آگاه شوند و احساس راحتی کنند.

چند نکته:

  • سعی کنید ویدیوها را با سرعت 1.2X تماشا کنید

  • هر بار که روی یک مؤلفه یا ویژگی جدید کار می‌کنید، درباره ابزارهای دیگری که برای همان هدف در نظر گرفته شده‌اند تحقیق کنید و ببینید که چگونه و در چه جنبه‌هایی متفاوت هستند، برای مثال Redshift/Athena در مقابل Snowflake یا Bigquery، QuickSight در مقابل PowerBi vs Microstrategy



سرفصل ها و درس ها

درباره دوره و مقدمه About the Course & Introduction

  • بررسی اجمالی دوره و پروژه Course & Project Overview

  • سخنرانی 4 - بازخورد و اطلاعات بیشتر Lecture 4 - Feedback and Learn More

  • اجزای صورت‌حساب AWS و اقدامات احتیاطی که باید انجام شود AWS Billing Components and Precautions to be taken

شروع کار با Redshift و Mysql RDS Getting Started with Redshift and Mysql RDS

  • بررسی اجمالی Redshift Redshift Overview

  • Redshift در مقابل BigQuery Redshift vs BigQuery

  • Redshift - سازگاری داده ها Redshift - Data Consistency

  • آزمایشگاه: نصب نمونه Mysql RDS در AWS Cloud Lab:Setup Mysql RDS Instance on AWS Cloud

  • آزمایشگاه: واردات پایگاه داده Mysql RDS Lab: Mysql RDS Database Import

  • با استفاده از DBeaver داده ها را در Mysql RDS بارگیری کنید Load Data into Mysql RDS using DBeaver

  • آزمایشگاه: Redshift Cluster Setup Lab : Redshift Cluster Setup

  • آزمایشگاه: Sql Client برای Redshift و RDS Mysql Lab : Sql Client for Redshift and RDS Mysql

ETL و همگام سازی داده های تراکنش با Redshift DWH ETL and Syncing Transactional Data with Redshift DWH

  • مقدمه - جریان داده ها Introduction - Flow of Data

  • درک اجزای مختلف و نقش آنها Understanding the different Components and their Roles

  • طراحی انبار داده شما - مفاهیم اساسی Designing your Data Warehouse - Basic Concepts

  • آزمایشگاه - AWS DataPipeline - شروع به کار با اولین کار واردات Lab - AWS DataPipeline - Getting Started with the first import Job

  • آزمایشگاه: یک بار داده های تاریخی را با استفاده از دستور کپی در جداول Redshift بارگذاری کنید Lab : One-time Load Historical Data into Redshift Tables using Copy Command

  • چسب AWS - نمای کلی و مرور AWS Glue - Overview and Walkthrough

  • آزمایشگاه - AWS DataPipeline - راه اندازی اولین مشاغل ساعتی ما برای بارگذاری داده های افزایشی Lab - AWS DataPipeline - Setup our first Hourly Jobs for Incremental Data Loads

  • Lab - AWS Glue - First Python Shell Job برای بارگذاری افزایشی داده در Redshift Lab - AWS Glue - First Python Shell Job for incremental Data loads into Redshift

  • آزمایشگاه - عملکرد AWS Lambda برای فعال کردن کار چسب ما Lab - AWS Lambda Function to Trigger our Glue Job

  • آزمایشگاه - AWS DataPipeline - دومین کار واردات Lab - AWS DataPipeline - Second import Job

  • آزمایشگاه: یک بار داده های تاریخی را با استفاده از دستور کپی در جداول Redshift بارگذاری کنید Lab : One-time Load Historical Data into Redshift Tables using Copy Command

  • Lab - AWS Glue - Python Shell Job برای بارگذاری تدریجی داده در Redshift Lab - AWS Glue - Python Shell Job for incremental Data loads into Redshift

  • AWS Glue Python - ظرفیت AWS Glue Python - Capacity

  • مهم - رویکرد همگام سازی داده ها و تصویر بزرگتر Important - Data Syncing Approach and the Bigger picture

  • Redshift - Cluster Snapshot و بازیابی Redshift - Cluster Snapshot and restoring

  • سایر جداول Mysql را همگام کنید Sync the Other Mysql Tables

دریاچه های داده و مدیریت منابع داده های خارجی Data Lakes & Handling External Data Sources

  • بخش بررسی اجمالی و مقدمه Section Overview and Introduction

  • آزمایشگاه - راه اندازی خزنده چسب AWS Lab - AWS Glue Crawler Setup

  • آزمایشگاه - آتنا - توضیح اسکن داده ها و جدول Lab - Athena - Data and Table Scan Explanation

  • آزمایشگاه - Pyspark توسعه محلی Lab - Pyspark Development Local

  • آزمایشگاه - پورت محلی Pyspark اسکریپت به چسب AWS Lab - Port Local Pyspark Script to AWS Glue

  • آزمایشگاه - AWS Glue Pyspark - قالب فایل پارکت و فشرده‌سازی سریع Lab - AWS Glue Pyspark - Parquet File Format & Snappy Compression

  • آزمایشگاه - AWS Lambda برای فعال کردن کار چسب Lab - AWS Lambda to Trigger Glue Jobs

  • Lab - Glue Crawler Run - پر کردن پارتیشن ها در کاتالوگ داده Lab - Glue Crawler Run - Populate Partitions in Data Catalog

طیف انتقال به قرمز Redshift Spectrum

  • مقدمه ای بر Redshift Spectrum Introduction to Redshift Spectrum

  • آزمایشگاه - Redshift Spectrum | طرحواره خارجی ایجاد کنید Lab - Redshift Spectrum | Create External Schema

  • آزمایشگاه - Redshift Spectrum | پیوستن به پایگاه داده متقابل Lab - Redshift Spectrum | Cross Database Joins

Quicksight - BI/گزارش و تجسم Quicksight - BI / Reporting and Visualization

  • Quicksight - مقدمه Quicksight - Introduction

  • آزمایشگاه - اتصال با Redshift و ایجاد داشبورد/تحلیل Lab - Connecting with Redshift and Create Dashboards/Analyses

  • آزمایشگاه - پرس و جوهای سفارشی Sql را برای تجزیه و تحلیل QuickSight و داشبورد اجرا کنید Lab - Run Custom Sql Queries for QuickSight Analyses and Dashboards

Redshift - تکنیک های بهینه سازی و تنظیم دقیق Redshift - Optimization Techniques and Fine tuning

  • Redshift - کلیدهای مرتب سازی و کلیدهای مرتب سازی مرکب Redshift - Sort Keys and Compound Sort Keys

  • Redshift - کلیدهای مرتب سازی میان ورقه ای Redshift - Interleaved Sort Keys

  • Redshift - عملیات خلاء Redshift - Vacuum Operations

  • Redshift - انتخاب کلیدها Redshift - Choosing Keys

  • Redshift - کلیدهای توزیع Redshift - Distribution Keys

  • آزمایشگاه - گروه پارامتر | تغییر خوشه قرمز Lab - Parameter Group | Redshift Cluster Modification

  • آزمایشگاه - کلیدهای مرتب سازی و فاصله و جاروبرقی | تغییر دستورات جدول Lab - Sort and Dist Keys & Vacuuming | Alter Table Commands

امتیاز - با چسب AWS کارهای بیشتری انجام دهید Bonus - Do more with AWS Glue

  • آزمایشگاه - AWS Glue Pyspark - داده های خارجی را در Redshift وارد کنید Lab - AWS Glue Pyspark - Insert External Data into Redshift

  • آزمایشگاه - چسب AWS - Pyspark - مستقیماً به RDS متصل شوید Lab - AWS Glue - Pyspark - Connect to RDS directly

بخش جدید - کار با Dockers و AWS ECR New Section - Working with Dockers and AWS ECR

  • داکرها چیست؟ What are Dockers ?

  • Docker Engine را نصب کنید Install Docker Engine

  • مراحل ایجاد تصویر داکر Steps to Create Docker Image

  • آزمایشگاه - ساخت و اجرای Docker Image Lab - Build and Run Docker Image

  • استقرار Docker Image در AWS Cloud Deploy Docker Image on AWS Cloud

  • نهایی - مجوزهای Lambda IAM Final - Lambda IAM Permissions

نمایش نظرات

آموزش مهندسی داده، ETL و BI بدون سرور در آمازون کلود
جزییات دوره
7 hours
55
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
5,785
3.8 از 5
دارد
دارد
دارد
No Latency
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

No Latency No Latency

ابر/مهندسی داده/تحلیل/معماری