آموزش تسلط بر Amazon Redshift و Serverless برای مهندسان داده

Mastering Amazon Redshift and Serverless for Data Engineers

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: دوره آموزشی عمیق در Amazon Redshift، Redshift Serverless، ادغام با EMR، AWS Step Functions، AWS Lambda و موارد دیگر شروع به کار با Amazon Redshift با استفاده از کنسول وب AWS کپی داده ها از s3 به جداول AWS Redshift با استفاده از Queries Redshift یا دستورات توسعه برنامه های Cluster Redshi با استفاده از Python به عنوان زبان برنامه نویسی کپی داده ها از s3 به جداول Redshift AWS با استفاده از Python به عنوان زبان برنامه نویسی ایجاد جداول با استفاده از راه اندازی پایگاه داده در سرور پایگاه داده AWS Redshift با استفاده از کلیدهای توزیع و کلیدهای مرتب سازی AWS Redshift Federated Queries متصل به پایگاه های داده سنتی RDBMS مانند Postgres Perform را اجرا کنید. پرس‌و‌جوهای فدرال AWS Redshift با استفاده از ظرفیت Redshift یکپارچه‌سازی AWS Redshift و AWS Glue Catalog برای اجرای پرس‌وجوها با استفاده از Redshift Spectrum اجرای پرس‌وجوهای طیف AWS Redshift با استفاده از جدول‌های کاتالوگ چسب در راه‌اندازی Datalake با استفاده از AWS s3 شروع به کار با ایجاد ادغام آمازون AWS با Redshift Integration Serup خوشه EMR با آمازون Redshift با استفاده از گروه کاری سرور بدون سرور توسعه و استقرار برنامه Spark روی خوشه AWS EMR که در آن داده های پردازش شده در گروه کاری بدون سرور Redshift آمازون بارگیری می شود. پرس و جو با استفاده از هر گونه مهارت های لینوکس پایه Relational یا Data Warehouse یا MPP Database با توانایی اجرای دستورات با استفاده از برنامه نویسی پایه ترمینال با استفاده از Python مورد نظر است، حتی اگر در بیشتر قسمت های دوره اجباری باشد.

AWS یا Amazon Redshift یکی از خدمات کلیدی AWS است که در ساخت انبارهای داده یا Data Marts برای ارائه گزارش‌ها و داشبوردها برای کاربران تجاری استفاده می‌شود. به عنوان بخشی از این دوره، با مرور تمام ویژگی‌های مهم AWS یا Amazon Redshift برای ساخت انبارهای داده یا Data Marts، AWS یا Amazon Redshift را یاد می‌گیرید.

ما ویژگی‌هایی مانند پرسش‌های فدرال، طیف Redshift، ادغام با پایتون، توابع AWS Lambda، ادغام Redshift با EMR، و خط لوله End-to-End با استفاده از توابع مرحله‌ای AWS را پوشش داده‌ایم.

در اینجا خلاصه کامل دوره آمده است.

  • ابتدا، نحوه شروع کار با Amazon Redshift را با استفاده از کنسول وب AWS درک خواهیم کرد. نحوه ایجاد یک کلاستر، نحوه اتصال به خوشه و همچنین نحوه اجرای پرس و جوها با استفاده از ویرایشگر پرس و جو مبتنی بر وب را خواهیم دید. ما همچنین پیش می رویم و یک پایگاه داده و جداول در Redshift Cluster ایجاد می کنیم. هنگامی که یک پایگاه داده و جداول را تنظیم کردیم، جزئیات مربوط به عملیات CRUD در برابر جداول در پایگاه‌های داده در Redshift Cluster را نیز بررسی خواهیم کرد.

  • هنگامی که پایگاه‌های داده و جداول را در Redshift Cluster در اختیار داریم، زمان آن فرا رسیده است که بفهمیم چگونه داده‌ها را در جداول Redshift Cluster وارد کنیم. یکی از روش‌های رایجی که برای دریافت داده‌ها به خوشه Redshift استفاده می‌کنیم، کپی کردن داده‌ها از s3 در جداول Redshift است. ما فرآیند گام به گام کپی کردن داده ها را در جداول Redshift از s3 با استفاده از دستور copy انجام خواهیم داد.

  • Python یکی از زبان های برنامه نویسی برجسته برای ساخت نرم افزارهای مهندسی داده یا ETL است. به طور گسترده برای ساخت ETL Jobs برای دریافت داده ها در جداول پایگاه داده در Redshift Cluster استفاده می شود. هنگامی که نحوه دریافت داده ها از جداول s3 به Redshift را با استفاده از Command Copy درک کردیم، یاد می گیریم که چگونه مهندسی داده مبتنی بر پایتون یا برنامه های ETL را با استفاده از Redshift Cluster توسعه دهیم. ما یاد خواهیم گرفت که چگونه عملیات CRUD را انجام دهیم و همچنین چگونه دستورات COPY اجرا شده را با استفاده از برنامه های مبتنی بر پایتون دریافت کنیم.

  • وقتی نحوه ساخت برنامه‌ها با استفاده از Redshift Cluster را فهمیدیم، برخی از مفاهیم کلیدی مورد استفاده در هنگام ایجاد جداول Redshift با Distkeys و Sortkeys را بررسی خواهیم کرد.

  • ما همچنین می‌توانیم به پایگاه‌های داده راه دور مانند Postgres متصل شویم و پرس‌و‌جوها را مستقیماً روی جداول پایگاه داده راه دور با استفاده از Redshift Federated Queries اجرا کنیم و همچنین می‌توانیم پرس‌وجوها را در بالای Glue یا Athena Catalog با استفاده از Redshift Spectrum اجرا کنیم. شما یاد خواهید گرفت که چگونه از Redshift Federated Queries و Spectrum برای پردازش داده ها در جداول پایگاه داده راه دور یا s3 بدون کپی کردن داده ها استفاده کنید.

  • همچنین یک نمای کلی از Amazon Redshift Serverless به عنوان بخشی از شروع کار با Amazon Redshift Serverless دریافت خواهید کرد.

  • هنگامی که Amazon Redshift Serverless را یاد گرفتید، در نهایت یک Pipeline مستقر خواهید کرد که در آن یک Spark Application در AWS EMR Cluster مستقر شده است که داده های پردازش شده توسط Spark را در Redshift بارگیری می کند.


سرفصل ها و درس ها

مقدمه ای بر تسلط بر Amazon Redshift و Serverless برای مهندسان داده Introduction to Mastering Amazon Redshift and Serverless for Data Engineers

  • مقدمه ای بر تسلط بر Amazon Redshift و Serverless برای مهندسان داده Introduction to Mastering Amazon Redshift and Serverless for Data Engineers

شروع کار با Amazon Redshift Getting Started with Amazon Redshift

  • شروع با Amazon Redshift - مقدمه Getting Started with Amazon Redshift - Introduction

  • با استفاده از نسخه آزمایشی رایگان، Redshift Cluster را ایجاد کنید Create Redshift Cluster using Free Trial

  • اتصال به پایگاه داده با استفاده از Redshift Query Editor Connecting to Database using Redshift Query Editor

  • دریافت لیست جداول پرس و جو از طرح اطلاعات Get list of tables querying information schema

  • با استفاده از Query Editor کوئری ها را در مقابل جداول Redshift اجرا کنید Run Queries against Redshift Tables using Query Editor

  • جدول Redshift را با استفاده از کلید اصلی ایجاد کنید Create Redshift Table using Primary Key

  • داده ها را در جداول Redshift وارد کنید Insert Data into Redshift Tables

  • داده ها را در جداول Redshift به روز کنید Update Data in Redshift Tables

  • حذف داده ها از جداول Redshift Delete data from Redshift tables

  • Redshift پرس و جوهای ذخیره شده با استفاده از ویرایشگر کوئری Redshift Saved Queries using Query Editor

  • در حال حذف Redshift Cluster Deleting Redshift Cluster

  • Redshift Cluster را از Snapshot بازیابی کنید Restore Redshift Cluster from Snapshot

داده ها را از s3 در جداول Redshift کپی کنید Copy Data from s3 into Redshift Tables

  • کپی اطلاعات از s3 به Redshift - مقدمه Copy Data from s3 to Redshift - Introduction

  • تنظیم داده ها در s3 برای Redshift Copy Setup Data in s3 for Redshift Copy

  • ایجاد پایگاه داده و جدول برای Redshift Copy Command Create Database and Table for Redshift Copy Command

  • ایجاد IAM User با دسترسی کامل در s3 برای Redshift Copy Create IAM User with full access on s3 for Redshift Copy

  • برای کپی اطلاعات از s3 به Redshift Table، Command Copy را اجرا کنید Run Copy Command to copy data from s3 to Redshift Table

  • عیب یابی خطاهای مربوط به Redshift Copy Command Troubleshoot Errors related to Redshift Copy Command

  • برای کپی کردن از جدول s3 به Redshift، Command Copy را اجرا کنید Run Copy Command to copy from s3 to Redshift table

  • اعتبارسنجی با استفاده از پرس و جو در مقابل جدول Redshift Validate using queries against Redshift Table

  • نمای کلی از Redshift Copy Command Overview of Redshift Copy Command

  • برای دسترسی به s3، نقش IAM را برای Redshift ایجاد کنید Create IAM Role for Redshift to access s3

  • داده ها را از s3 به جدول Redshift با استفاده از IAM Role کپی کنید Copy Data from s3 to Redshift table using IAM Role

  • تنظیم JSON Dataset در s3 برای Redshift Copy Command Setup JSON Dataset in s3 for Redshift Copy Command

  • داده های JSON را از s3 به جدول Redshift با استفاده از IAM Role کپی کنید Copy JSON Data from s3 to Redshift table using IAM Role

برنامه ها را با استفاده از Redshift Cluster توسعه دهید Develop Applications using Redshift Cluster

  • توسعه برنامه با استفاده از Redshift Cluster - مقدمه Develop application using Redshift Cluster - Introduction

  • اختصاص Ip الاستیک برای Redshift Cluster Allocate Elastic Ip for Redshift Cluster

  • قابلیت دسترسی عمومی را برای Redshift Cluster فعال کنید Enable Public Accessibility for Redshift Cluster

  • برای دسترسی به Redshift Cluster، قوانین ورودی را در Security Group به روز کنید Update Inbound Rules in Security Group to access Redshift Cluster

  • ایجاد پایگاه داده و کاربر در Redshift Cluster Create Database and User in Redshift Cluster

  • با استفاده از psql به پایگاه داده در Redshift متصل شوید Connect to database in Redshift using psql

  • تغییر مالک در جداول Redshift Change Owner on Redshift Tables

  • دانلود فایل Redshift JDBC Jar Download Redshift JDBC Jar file

  • با استفاده از IDE هایی مانند SQL Workbench به پایگاه داده Redshift متصل شوید Connect to Redshift Databases using IDEs such as SQL Workbench

  • راه اندازی محیط مجازی پایتون برای Redshift Setup Python Virtual Environment for Redshift

  • Simple Query را در مقابل جدول پایگاه داده Redshift با استفاده از پایتون اجرا کنید Run Simple Query against Redshift Database Table using Python

  • جدول Redshift را با استفاده از پایتون کوتاه کنید Truncate Redshift Table using Python

  • IAM User را ایجاد کنید تا از s3 به Redshift Tables کپی کنید Create IAM User to copy from s3 to Redshift Tables

  • اعتبارسنجی دسترسی کاربر IAM با استفاده از Boto3 Validate Access of IAM User using Boto3

  • Redshift Copy Command را با استفاده از پایتون اجرا کنید Run Redshift Copy Command using Python

جداول Redshift با Distkeys و Sortkeys Redshift Tables with Distkeys and Sortkeys

  • جداول Redshift با Distkeys و Sortkeys - مقدمه Redshift Tables with Distkeys and Sortkeys - Introduction

  • بررسی سریع معماری Redshift Quick Review of Redshift Architecture

  • ایجاد چند گره Redshift Cluster Create multi-node Redshift Cluster

  • با استفاده از ویرایشگر Query به Redshift Cluster متصل شوید Connect to Redshift Cluster using Query Editor

  • پایگاه داده Redshift ایجاد کنید Create Redshift Database

  • کاربر پایگاه داده Redshift ایجاد کنید Create Redshift Database User

  • ایجاد طرحواره پایگاه داده Redshift Create Redshift Database Schema

  • سبک توزیع پیش‌فرض جدول Redshift Default Distribution Style of Redshift Table

  • اجازه انتخاب کاتالوگ را به کاربر پایگاه داده Redshift بدهید Grant Select Permissions on Catalog to Redshift Database User

  • مسیر جستجو را برای درخواست جداول سیستم Redshift به روز کنید Update Search Path to query Redshift system tables

  • اعتبار سنجی جدول با DISTSTYLE AUTO Validate table with DISTSTYLE AUTO

  • Cluster را از Snapshot به حالت اولیه ایجاد کنید Create Cluster from Snapshot to the original state

  • نمای کلی Node Slices در Redshift Cluster Overview of Node Slices in Redshift Cluster

  • مروری بر سبک های توزیع Overview of Distribution Styles

  • استراتژی های توزیع برای جداول خرده فروشی در Redshift Distribution Strategies for retail tables in Redshift

  • جداول Redshift را با سبک توزیع همه ایجاد کنید Create Redshift tables with distribution style all

  • عیب یابی و رفع خطاهای بارگذاری یا کپی کردن Troubleshoot and Fix Load or Copy Errors

  • جدول Redshift را با Distribution Style Auto ایجاد کنید Create Redshift Table with Distribution Style Auto

  • جداول Redshift را با استفاده از Distribution Style Key ایجاد کنید Create Redshift Tables using Distribution Style Key

  • حذف خوشه با عکس فوری دستی Delete Cluster with manual snapshot

پرس و جوها و طیف فدرال Redshift Redshift Federated Queries and Spectrum

  • Redshift Federated Queries and Spectrum - مقدمه Redshift Federated Queries and Spectrum - Introduction

  • مروری بر ادغام RDS و Redshift برای جستجوهای فدرال Overview of integrating RDS and Redshift for Federated Queries

  • نقش IAM را برای Redshift Cluster ایجاد کنید Create IAM Role for Redshift Cluster

  • راه اندازی سرور پایگاه داده Postgres برای پرس و جوهای فدرال Redshift Setup Postgres Database Server for Redshift Federated Queries

  • جداول را در پایگاه داده Postgres برای Queries فدرال Redshift ایجاد کنید Create tables in Postgres Database for Redshift Federated Queries

  • ایجاد راز با استفاده از Secrets Manager برای پایگاه داده Postgres Creating Secret using Secrets Manager for Postgres Database

  • دسترسی به جزئیات مخفی با استفاده از Python Boto3 Accessing Secret Details using Python Boto3

  • خواندن داده‌های Json در Dataframe با استفاده از پاندا Reading Json Data to Dataframe using Pandas

  • با استفاده از پاندا، داده های JSON را در جداول پایگاه داده بنویسید Write JSON Data to Database Tables using Pandas

  • سیاست IAM را برای Secret ایجاد کنید و با Redshift Role ارتباط برقرار کنید Create IAM Policy for Secret and associate with Redshift Role

  • Redshift Cluster را با استفاده از IAM Role با مجوزهای مخفی ایجاد کنید Create Redshift Cluster using IAM Role with permissions on secret

  • طرحواره خارجی Redshift را در پایگاه داده Postgres ایجاد کنید Create Redshift External Schema to Postgres Database

  • به روز رسانی Redshift Cluster Network Settings for Federated Queries Update Redshift Cluster Network Settings for Federated Queries

  • انجام ETL با استفاده از Redshift Federated Queries Performing ETL using Redshift Federated Queries

  • پاک کردن منابع اضافه شده برای Redshift Federated Queries Clean up resources added for Redshift Federated Queries

  • اعطای دسترسی به کاتالوگ داده های چسب به Redshift Cluster for Spectrum Grant Access on Glue Data Catalog to Redshift Cluster for Spectrum

  • Redshift Cluster ها را برای اجرای پرس و جوها با استفاده از Spectrum راه اندازی کنید Setup Redshift Clusters to run queries using Spectrum

  • خلاصه سریع پایگاه داده و جداول کاتالوگ چسب برای طیف Redshift Quick Recap of Glue Catalog Database and Tables for Redshift Spectrum

  • طرحواره خارجی را با استفاده از Redshift Spectrum ایجاد کنید Create External Schema using Redshift Spectrum

  • Queries را با استفاده از Redshift Spectrum اجرا کنید Run Queries using Redshift Spectrum

  • Redshift Cluster را پاک کنید Cleanup the Redshift Cluster

شروع کار با Redshift بدون سرور آمازون Getting Started with Amazon Serverless Redshift

  • ایجاد گروه کاری و فضای نام برای Amazon Redshift Serverless Create Workgroup and Namespace for Amazon Redshift Serverless

  • مروری بر فضاهای نام و گروه های کاری بدون سرور Amazon Redshift Overview of Amazon Redshift Serverless Namespaces and Workgroups

  • پیش نمایش سریع داشبورد بدون سرور Amazon Redshift Quick Preview of Amazon Redshift Serverless Dashboard

  • با اجرای یک پرس و جو، گروه کاری بدون سرور Redshift Amazon را تأیید کنید Validate Amazon Redshift Serverless Workgroup by running a query

  • دسترسی عمومی به گروه کاری بدون سرور Redshift را فعال کنید Enable Public Accessbility to Redshift Serverless Workgroup

  • ظرفیت گروه کاری بدون سرور Redshift اندازه گیری شده در RPU را درک کنید Understand Redshift Serverless Workgroup Capacity measured in RPUs

با استفاده از Redshift Serverless، طرحواره طیف Redshift را تنظیم کنید Setup Redshift Spectrum Schema using Redshift Serverless

  • مقدمه ای بر راه اندازی پایگاه داده طیف Redshift با استفاده از Redshift Serverless Introduction to Setup Redshift Spectrum Database using Redshift Serverless

  • راه اندازی فایل ها در S3 برای کاتالوگ چسب و جداول پایگاه داده طیف قرمز Setup Files in S3 for Glue Catalog and Redshift Spectrum Database Tables

  • Cleanup Glue Catalog Database and Crawler با استفاده از AWS Glue Console Cleanup Glue Catalog Database and Crawler using AWS Glue Console

  • ایجاد خزنده چسب برای تنظیم پایگاه داده و جداول کاتالوگ چسب برای Redshift Shift Create Glue Crawler to Setup Glue Catalog Database and Tables for Redshift Shift

  • اجرای Glue Crawler برای ایجاد پایگاه داده و جداول کاتالوگ چسب برای Redshift Spectu Run Glue Crawler to Create Glue Catalog Database and Tables for Redshift Spectu

  • ایجاد گروه کاری بدون سرور Redshift و فضای نام برای Redshift Spectrum Create Redshift Serverless Workgroup and Namespace for Redshift Spectrum

  • دسترسی به Redshift با استفاده از Jupyter Based Environment of VS Code Accessing Redshift using Jupyter Based Environment of VS Code

  • ایجاد پایگاه داده و کاربر برای Data Mart با استفاده از AWS Redshift Query Editor Create Database and User for Data Mart using AWS Redshift Query Editor

  • ایجاد پایگاه داده و کاربر برای Data Mart با استفاده از نوت بوک های Jupyter Create Database and User for Data Mart using Jupyter Notebooks

  • طرحواره خارجی را در پایگاه داده Redshift با استفاده از پایگاه داده کاتالوگ چسب ایجاد کنید Create External Schema in Redshift Database using Glue Catalog Database

  • با استفاده از Redshift Query Setup External Schema Setup را اعتبارسنجی کنید Validate External Schema Setup using Redshift Query Editor

پرس و جوهای اولیه SQL با استفاده از AWS Redshift SQL Basic SQL Queries using AWS Redshift SQL

  • مقدمه ای بر پرس و جوهای پایه SQL با استفاده از AWS Redshift SQL Introduction to Basic SQL Queries using AWS Redshift SQL

  • مروری بر استفاده از بند WITH در پرس و جوهای Redshift SQL Overview of Using WITH Clause in Redshift SQL Queries

  • مروری بر استفاده از Views در Redshift SQL Queries Overview of Using Views in Redshift SQL Queries

  • فیلتر کردن داده ها با استفاده از AWS Redshift SQL Filtering Data using AWS Redshift SQL

  • فیلتر کردن داده ها با استفاده از Boolean AND در Redshift SQL Filtering Data using Boolean AND in Redshift SQL

  • فیلتر کردن داده ها با استفاده از LIKE Operator در Redshift SQL Filtering Data using LIKE Operator in Redshift SQL

  • فیلتر کردن داده ها با استفاده از عملگرهای Boolean OR و IN در Redshift SQL Filtering Data using Boolean OR and IN Operators in Redshift SQL

  • نمای کلی تعداد و جمع با استفاده از Redshift SQL Overview of Count and Sum using Redshift SQL

  • دریافت میانگین کل با استفاده از Redshift SQL Getting Total Average using Redshift SQL

  • با استفاده از Redshift SQL، مجموع تجمیع‌ها را بر اساس Condition انجام دهید Perform Total Aggregations based on Condition using Redshift SQL

  • با استفاده از Redshift SQL Count و Distinct Count را دریافت کنید Get Count and Distinct Count using Redshift SQL

  • با استفاده از Redshift SQL، اندازه‌های مورد سفارش را جمع و میانگین دریافت کنید Get Sum and Average on Order Item Measures using Redshift SQL

  • با استفاده از Redshift SQL تجمیع گروهی را انجام دهید Perform Grouped Aggregations using Redshift SQL

  • فیلتر کردن نتایج مجموع با استفاده از HAVING در GROUP BY Filtering on Aggregate Results using HAVING on GROUP BY

  • بررسی اجمالی ترتیب اجرای SQL با استفاده از Group By و Having Overview of Order Of Execution of SQL using Group By and Having

  • نمای کلی اتصالات با استفاده از جداول Redshift Overview of Joins using Redshift Tables

ادغام AWS EMR با Amazon Redshift Integration of AWS EMR with Amazon Redshift

  • ایجاد AWS EC2 Elastic IP و جفت کلید برای AWS EMR Cluster Create AWS EC2 Elastic IP and Key Pair for AWS EMR Cluster

  • برای نصب boto3 برای AWS EMR Bootstrap Action Shell Script ایجاد کنید Create Shell Script for AWS EMR Bootstrap Action to install boto3

  • AWS EMR Cluster را برای ادغام با Amazon Redshift ایجاد کنید Create AWS EMR Cluster to integrate with Amazon Redshift

  • Elastic IP را به گره اصلی AWS EMR وصل کنید و اتصال SSH را تأیید کنید Attach Elastic IP to the AWS EMR Master Node and Validate SSH Connectivity

  • پروژه راه اندازی برای AWS EMR و Redshift یکپارچه سازی با استفاده از VS Code Remote Deve Setup Project for AWS EMR and Redshift Integration using VS Code Remote Deve

  • راه اندازی گروه کاری بدون سرور Amazon Redshift و اعتبارسنجی اتصال Setup Amazon Redshift Serverless Workgroup and Validate Connetivity

  • با استفاده از psql از AWS EMR Master به Workgroup بدون سرور Redshift متصل شوید Connect to Redshift Serverless Workgroup from AWS EMR Master using psql

  • راه اندازی پایگاه داده و کاربر مورد نیاز در گروه کاری بدون سرور Amazon Redshift Setup Required Database and User in Amazon Redshift Serverless Workgroup

  • Python Library psycopg2 را برای اتصال به پایگاه داده Redshift با استفاده از Python نصب کنید Install Python Library psycopg2 to connect to Redshift Databases using Python

  • اعتبار سنجی اتصال Redshift با استفاده از پایتون از AWS EMR Master Node Validate Redshift Connectivity using Python from AWS EMR Master Node

  • جداول پایگاه داده Redshift را ایجاد و اعتبار سنجی کنید Create and Validate Redshift Database Tables

  • Secret for Redshift Database را با استفاده از AWS Secrets Manager ایجاد کنید Create Secret for Redshift Database using AWS Secrets Manager

  • پایتون Boto3 را در Master Node خوشه AWS EMR اعتبار سنجی کنید Validate Python Boto3 on Master Node of AWS EMR Cluster

  • راز را از AWS Secrets Manager با استفاده از Python Boto3 بخوانید Read Secret from AWS Secrets Manager using Python Boto3

  • اعتبار اتصال Redshift از Master Node خوشه AWS EMR Validate Redshift Connectivity from Master Node of AWS EMR Cluster

  • Pyspark CLI را با وابستگی‌های Redshift در AWS EMR Master Node راه‌اندازی کنید Launch Pyspark CLI with Redshift Dependencies on AWS EMR Master Node

  • اعتبار اتصال Redshift را با استفاده از Spark در AWS EMR Cluster تأیید کنید Validate Redshift Connectivity using Spark on AWS EMR Cluster

  • کدی را برای اعتبارسنجی Spark و Redshift با استفاده از EMR ایجاد کنید Develop Code to Validate Spark and Redshift Integration using EMR

  • تنظیم داده های GHActivity در AWS s3 Setup GHActivity Data in AWS s3

  • خواندن و پردازش داده ها با استفاده از Pyspark برای نوشتن در Redshift Table Read and Process Data using Pyspark to write into Redshift Table

  • برای بارگذاری Spark Dataframe در Redshift Table، Write Logic را توسعه دهید Develop Write Logic to load Spark Dataframe into Redshift Table

  • فرآیند بارگذاری جرقه را در جدول Redshift آمازون تأیید کنید Validate Spark Load Process to Amazon Redshift Table

  • آشنایی با مکان AWS s3 Temp مشخص شده در Spark Applications Understanding AWS s3 Temp Location specified in Spark Applications

  • نتیجه گیری در مورد ادغام AWS EMR با آمازون Redshift Conclusion on Integration of AWS EMR with Amazon Redshift

برنامه ها را با استفاده از Spark SQL در AWS EMR Cluster توسعه دهید Develop Applications using Spark SQL on AWS EMR Cluster

  • AWS EMR Cluster را برای توسعه برنامه ها با استفاده از Spark SQL راه اندازی کنید Setup AWS EMR Cluster to develop applications using Spark SQL

  • با استفاده از AWS EMR Master Node، فضای کاری کد ویژوال استودیو را راه اندازی کنید Setup Visual Studio Code Workspace using AWS EMR Master Node

  • برای دسترسی به کتابخانه‌ها یا ماژول‌های Pyspark در AWS EMR Master Node، PYTHONPATH را به‌روزرسانی کنید. Update PYTHONPATH to access Pyspark Libraries or Modules on AWS EMR Master Node

  • تنظیم مجموعه داده های مورد نیاز برای Spark SQL Setup Required Data Sets for Spark SQL

  • فایل‌های Retail DB را با استفاده از دستورات AWS CLI در AWS s3 آپلود کنید Upload Retail DB Files to AWS s3 using AWS CLI commands

  • Spark SQL و Temporary Views با استفاده از Spark SQL در AWS EMR Cluster Spark SQL and Temporary Views using Spark SQL on AWS EMR Cluster

  • نماهای موقت Spark SQL را برای سفارشات و موارد سفارش ایجاد کنید Create Spark SQL Temporary Views for Orders and Order Items

  • با استفاده از Spark SQL در AWS EMR Cluster بپیوندید و جمع کنید Join and Aggregate using Spark SQL on AWS EMR Cluster

  • با استفاده از Spark SQL در AWS EMR Cluster، نتایج پرس و جو را به AWS s3 برگردانید Write Query Results back to AWS s3 using Spark SQL on AWS EMR Cluster

  • اسکریپت را با استفاده از Spark SQL Commands توسعه دهید Develop Script using Spark SQL Commands

  • پارامترسازی نام سطل در اسکریپت Spark SQL Parameterize Bucket Name in Spark SQL Script

  • استقرار Spark SQL Script در s3 و اجرا با استفاده از CLI در AWS EMR Master Node Deploy Spark SQL Script in s3 and Run using CLI on AWS EMR Master Node

  • اسکریپت Spark SQL را به عنوان مرحله روی خوشه AWS EMR اجرا کنید Deploy Spark SQL Script as Step on AWS EMR Cluster

  • نتیجه‌گیری برای توسعه برنامه‌های Spark SQL در کلاستر EMR Conclusion to Develop Spark SQL Applications on EMR Cluster

برنامه ها را با استفاده از Redshift و Python boto3 توسعه دهید Develop Applications using Redshift and Python boto3

  • مقدمه ای بر ادغام توابع AWS Lambda و Redshift Introduction to Integration of AWS Lambda Functions and Redshift

  • راه اندازی Redshift Serverless Workgroup و Namespace Setup Redshift Serverless Workgroup and Namespace

  • راه اندازی فضای کاری برای ادغام توابع AWS Lambda و Redshift Setup Workspace for Integration of AWS Lambda Functions and Redshift

  • اعتبارسنجی داده های JSON در AWS s3 با استفاده از Pandas Validate JSON Data in AWS s3 using Pandas

  • جزئیات خوشه Redshift را با استفاده از Python boto3 دریافت کنید Get Redshift Cluster Details using Python boto3

  • با استفاده از Python Boto3 جزئیات بدون سرور Redshift را دریافت کنید Get Redshift Serverless Details using Python Boto3

  • SQL Queries را با استفاده از Redshift Serverless و Python Boto3 اجرا کنید Run SQL Queries using Redshift Serverless and Python Boto3

  • نتایج جستجوی Redshift را با استفاده از Python Boto3 ضبط کنید Capture Redshift Query Results using Python Boto3

  • ایجاد پایگاه داده و کاربر در فضای نام بدون سرور Redshift Create Database and User in Redshift Serverless Namespace

  • جدول را در فضای نام بدون سرور Redshift ایجاد کنید Create Table in Redshift Serverless Namespace

  • نمای کلی پایتون Boto3 Waiters Overview of Python Boto3 Waiters

  • Queries را در مقابل Redshift Table با استفاده از Boto3 بدون اعتبار اجرا کنید Run Queries against Redshift Table using Boto3 without credentials

  • راز را با استفاده از AWS Secrets Manager for Redshift Workgroup ایجاد و اعتبار سنجی کنید Create and Validate Secret using AWS Secrets Manager for Redshift Workgroup

  • داده های پردازش شده را از AWS s3 در جدول Redshift کپی کنید Copy Processed Data from AWS s3 into Redshift Table

  • نتیجه گیری در مورد توسعه برنامه ها با استفاده از Redshift و Python Boto3 Conclusion on Developing Applications using Redshift and Python Boto3

ادغام توابع AWS Lambda و Redshift Integration of AWS Lambda Functions and Redshift

  • مقدمه ای بر ادغام توابع AWS Lambda و Redshift Introduction to Integration of AWS Lambda Functions and Redshift

  • شروع کار با عملکرد لامبدا با استفاده از boto3 Getting Started with Lambda Function using boto3

  • اجرای عملکرد Lambda با استفاده از AWS Lambda Console Running Lambda Function using AWS Lambda Console

  • عیب‌یابی عملکردهای AWS Lambda با استفاده از گزارش‌های Cloudwatch Troubleshoot issues of AWS Lambda Functions using Cloudwatch Logs

  • نسخه Boto3 Python را در AWS Lambda Function Run Time Environment بررسی کنید Check Python Boto3 Version in AWS Lambda Function Run Time Environment

  • بررسی اجمالی افزودن لایه Lambda به ارتقای Python Boto3 از Lambda Runtime Overview of adding Lambda Layer to Upgrade Python Boto3 of Lambda Runtime

  • فایل Zip را با آخرین Boto3 در AWS s3 برای لایه Lambda کپی کنید Copy Zip File with Latest Boto3 to AWS s3 for Lambda Layer

  • برای ارتقای Python Boto3 از Lambda Runtime لایه Lambda ایجاد کنید Create Lambda Layer to Upgrade Python Boto3 of Lambda Runtime

  • با استفاده از boto3 تابعی برای کپی داده ها در جدول Redshift ایجاد کنید Create Function to Copy Data into Redshift Table using boto3

  • Lambda Handler را برای کپی کردن داده ها در Redshift Table به روز کنید Update Lambda Handler to copy data to Redshift Table

  • از طریق IAM Role مجوز Redshift Secret را به عملکرد AWS Lambda بدهید Grant Permissions on Redshift Secret to AWS Lambda Function via IAM Role

  • اعطای مجوز به Redshift Data API به عملکرد AWS Lambda از طریق IAM Role Grant Permissions on Redshift Data API to AWS Lambda Function via IAM Role

  • قبل از اجرای تابع Lambda، Redshift Workgroup و Truncate Table را مرور کنید Review Redshift Workgroup and Truncate Table before running Lambda Function

  • عملکرد AWS Lambda را برای کپی کردن داده ها در جدول Redshift اجرا کنید Run AWS Lambda Function to Copy Data to Redshift Table

  • اعتبارسنجی داده های کپی شده توسط عملکرد AWS Lambda در جدول Redshift با اجرای پرس و جوها Validate Data Copied by AWS Lambda Function in Redshift Table by running queries

خط لوله داده با استفاده از توابع مرحله ای AWS با EMR و Redshift Data Pipeline using AWS Step Functions with EMR and Redshift

  • مقدمه ای بر خط لوله داده با استفاده از توابع مرحله ای AWS با EMR و Redshift Introduction to Data Pipeline using AWS Step Functions with EMR and Redshift

  • شروع به کار با ماشین های حالت یا خطوط لوله داده با استفاده از تابع مرحله AWS Getting Started with State Machines or Data Pipelines using AWS Step Function

  • جزئیات اجرای ماشین حالت یا خط لوله داده را با استفاده از AWS Step Functi مرور کنید Review Execution Details of State Machine or Data Pipeline using AWS Step Functi

  • ماشین‌های حالت را با استفاده از داشبورد ماشین‌های حالت توابع مرحله AWS مدیریت کنید Manage State Machines using AWS Step Functions State Machines Dashboard

  • برای کپی کردن داده ها از s3 به Redshift با عملکرد AWS Lambda، ماشین حالت ایجاد کنید Create State Machine with AWS Lambda Function to Copy Data From s3 to Redshift

  • به روز رسانی State Machine با مجوزهای Lambda برای کپی داده ها از s3 به Redshift Update State Machine with Permissions on Lambda to Copy Data From s3 to Redshift

  • برای کپی داده ها از s3 به تب Redshift، ماشین حالت را با عملکرد AWS Lambda اجرا کنید Run State Machine with AWS Lambda Function to Copy Data From s3 to Redshift Tab

  • مروری بر مدیریت خوشه های AWS EMR با استفاده از Boto3 Overview of Managing AWS EMR Clusters using Boto3

  • مروری بر AWS boto3 برای مدیریت خوشه های AWS EMR Overview of AWS boto3 to Manage AWS EMR Clusters

  • خوشه جریان کار AWS EMR را با استفاده از Python Boto3 ایجاد کنید Create AWS EMR Job Flow Cluster using Python Boto3

  • با استفاده از Boto3، اسکریپت Spark SQL را به عنوان مرحله به خوشه AWS EMR اضافه کنید Add Spark SQL Script as Step to AWS EMR Cluster using Boto3

  • مروری بر AWS EMR Waiters با استفاده از Python Boto3 Overview of AWS EMR Waiters using Python Boto3

  • AWS EMR Cluster را با استفاده از پیشخدمت و Python Boto3 خاتمه دهید Terminate AWS EMR Cluster using waiters and Python Boto3

  • نمای کلی AWS Step Functions State Machine برای اجرای Spark SQL در EMR Overview of AWS Step Functions State Machine to execute Spark SQL on EMR

  • برای ایجاد خوشه EMR با استفاده از AWS Step Function ماشین حالت ایجاد کنید Create State Machine using AWS Step Function to create EMR Cluster

  • از طریق Role to Create AWS EMR Cluster به State Machine اجازه بدهید Grant Permissions to State Machine via Role to Create AWS EMR Cluster

  • اضافه کردن اسکریپت Spark SQL به عنوان Step به خوشه AWS EMR با استفاده از توابع مرحله AWS Add Spark SQL Script as Step to AWS EMR Cluster using AWS Step Functions

  • افزودن Terminate AWS EMR Cluster Step به AWS Step Functions State Machine Add Add Terminate AWS EMR Cluster Step to AWS Step Functions State Machine

  • در زمان اجرا، جزئیات مرحله AWS EMR را به عنوان ورودی به ماشین حالت ارسال کنید Pass AWS EMR Step Details as Input to State Machine at Execution Time

  • اعتبار سنجی اجرای اسکریپت Spark SQL به عنوان مرحله AWS EMR با استفاده از State Machine Validate Spark SQL Script Execution as AWS EMR Step using State Machine

  • خط لوله داده را با یکپارچه سازی EMR و Redshift با استفاده از تابع مرحله AWS ایجاد کنید Create Data Pipeline with EMR and Redshift Integration using AWS Step Function

  • اعطای مجوز به AWS EMR برای نقش State Machine با EMR و Redshift Inte Grant Permissions on AWS EMR to role of State Machine with EMR and Redshift Inte

  • AWS Step Function State Machine را با یکپارچه سازی EMR و Redshift اجرا کنید Run AWS Step Function State Machine with EMR and Redshift Integration

  • اعتبار AWS State Machine Execution را با یکپارچه سازی EMR و Redshift تأیید کنید Validate AWS State Machine Execution with EMR and Redshift Integration

  • بهترین روش ها برای ساخت ماشین های حالت با ادغام AWS EMR و Redshift Best Practices to Build State Machines with AWS EMR and Redshift Integration

نمایش نظرات

آموزش تسلط بر Amazon Redshift و Serverless برای مهندسان داده
جزییات دوره
16 hours
208
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
6,229
4.4 از 5
ندارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Durga Viswanatha Raju Gadiraju Durga Viswanatha Raju Gadiraju

مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده

Analytiqs Inc Analytiqs Inc

شریک رسمی برای دوره های ITVversity