آموزش مهندسی داده جلد ۲ AWS: پردازش داده‌ها - Spark و Kafka - آخرین آپدیت

دانلود Data Engineering Vol2 AWS : Data Processing - Spark & Kafka

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: پردازش دسته‌ای (Batch) و جریانی (Stream) با استفاده از Spark (PySpark) و Kafka در محیط AWS (EMR و Databricks) بررسی عمیق Spark و Kafka با استفاده از AWS EMR، Databricks و MSK درک مفاهیم مهندسی داده (جلد ۲) در AWS با بهره‌گیری از Spark و Kafka پیاده‌سازی پردازش‌های Batch و Stream با Spark و Kafka پروژه‌های سطح صنعتی و تمرینات عملی برای آماده‌سازی داوطلبان جهت ورود به محیط کار دسترسی به مجموعه‌داده‌هایی (Datasets) در ابعاد ۱۰۰ تا ۲۰۰ گیگابایت و تمرین با آن‌ها آموزش جامع پایتون برای مهندسی داده به صورت عملی (توابع، آرگومان‌ها، OOP، ماژول‌ها، پکیج‌ها، Multithreading، مدیریت فایل و غیره) آموزش جامع SQL برای مهندسی داده به صورت عملی (اشیاء دیتابیس، CASE، Window Functions، CTE، CTAS، MERGE، Materialized View و غیره) سرویس‌های تحلیل داده AWS شامل S3، EMR، Databricks و MSK پیش نیازها: آشنایی اولیه با AWS و SQL توصیه می‌شود.

این دوره جلد دوم مهندسی دادهاست. در این دوره در مورد تکنولوژی‌های متن‌باز پردازش داده یعنی Spark و Kafkaصحبت خواهم کرد که محبوب‌ترین فریم‌ورک‌های پردازش داده برای پردازش دسته‌ای و جریانی (Batch & Stream)هستند. در این دوره شما Spark را از سطح ۱۰۰ تا ۴۰۰ همراه با پروژه‌ها و تمرینات واقعی خواهید آموخت.همچنین شما را با Data Lake در AWS (سرویس S3) و Data Lakehouse با استفاده از Apache Icebergآشنا می‌کنم.


من از AWS به عنوان پلتفرم میزبانی استفاده کرده و درباره سرویس‌های EMR، S3و MSKتوضیح خواهم داد. همچنین Databricksرا به عنوان پلتفرم میزبانی Spark پوشش می‌دهم و نحوه یکپارچگی Spark با سایر سرویس‌ها مانند AWS RDS (MySQL یا PostgreSQL)و Redshiftرا نمایش خواهم داد.


شما فرصت کار عملی با مجموعه‌داده‌های حجیم (۱۰۰ تا ۳۰۰ گیگابایت یا بیشتر) را خواهید داشت.این دوره تمریناتی را ارائه می‌دهد که با سناریوهای واقعی مانند پردازش دسته‌ای Spark، پردازش جریانی، بهینه‌سازی عملکرد (Performance Tuning)، ورود داده‌های جریانی، Window functions و تراکنش‌های ACID روی Iceberg مطابقت دارد.

سایر نکات برجسته:

  • ۱۰ پروژه با مجموعه‌داده‌های مختلف؛ مجموع حجم داده‌ها ۲۵۰ گیگابایت یا بیشتر.

  • پوشش سایر تکنولوژی‌ها شامل EC2، EBS، VPC و IAM.

  • ویدیوهای اختیاری پایتون

  • ویدیوهای ضروری و اختیاری AWS و SQL


من دوره مهندسی دادهرا با جلد ۳به پایان خواهم رساند که در آن مباحث زیر پوشش داده می‌شوند:

  • Flink

  • Apache Airflow

  • Apache Pinot

  • AWS Kinesis

لطفاً اگر مایل هستید مبحث دیگری اضافه شود، نظرات و پیشنهادات خود را ارسال کنید.


سرفصل ها و درس ها

مقدمه‌ای بر مهندسی داده جلد ۲ Introduction to Data Engineering Volume 2

  • مقدمه - داده‌ها، چرخه حیات داده و خط لوله مهندسی داده Introduction - Data, Data Lifecycle & Data Engineering Pipeline

  • مرور دوره مهندسی داده جلد ۲ و پروژه‌ها، نقش‌ها در حوزه داده Data Engineering Volume 2 Course & Projects Overview, Roles in Data

  • هزینه‌های منابع AWS برای این دوره AWS Resource Cost for the Course

پردازش داده‌های حجیم (Big Data Processing) Big Data Processing

  • محاسبات و ذخیره‌سازی توزیع شده، Big Data و MapReduce Distributed Compute & Storage, Big Data, MapReduce

  • وظایف Map و Reduce، اکوسیستم داده‌های حجیم Map & Reduce Tasks, Big Data Ecosystem

  • کار عملی: MapReduce با استفاده از کتابخانه پایتون mrjob HandsOn : MapReduce using "mrjob" Python Library

  • کار عملی: دستورات HDFS HandsOn : HDFS Commands

  • معماری و کاربرد YARN YARN - Architecture & Usage

  • ZooKeeper و فرمت‌های فایل Big Data (Parquet و Avro) ZooKeeper, Big Data File Formats - Parquet & Avro

آشنایی با Spark Introduction to Spark

  • مقدمه‌ای بر Spark، پردازش دسته‌ای و جریانی Introduction to Spark, Batch & Stream Processing

  • اکوسیستم Spark، توسعه، معماری و اجرا Spark Ecosystem, Development, Architecture & Execution

  • کدبیس Spark، JVM، نصب و پیکربندی، PySpark Spark Codebase, JVM, Setup & Configuration, PySpark

بررسی دقیق Spark - بخش اول Knowing Spark - Up Close Part 1

  • کلاستر Spark در AWS EMR Spark Cluster on AWS EMR

  • کلاستر مستقل Spark روی لپ‌تاپ و EC2، رابط کاربری Spark UI Spark Standalone Cluster on Laptop & EC2, Spark UI

  • حالت‌های استقرار اپلیکیشن Spark (deploy mode cluster|client) Spark Application Deployment Modes (--deploy-mode cluster|client)

  • دیتافریم‌ها (DataFrames)، DAG و ماژول PySpark DataFrames, DAG, PySpark Module

  • SparkSession SparkSession

  • خواننده و نویسنده دیتافریم (DataFrame Reader & Writer) DataFrame Reader & Writer

  • تعریف اسکیمای دیتافریم - StructType, StructField, inferSchema Define DataFrame Schema - StructType, StructField, inferSchema

  • رابطه بین Partition، Split، Task و Executor Partition, Split, Task, Executor Relation

  • پارتیشن‌ها و Splitها برای فایل‌های کوچک Partitions & Splits for Smaller Files

تبدیلات (Transformation) و اکشن‌های Spark - بخش اول Spark Transformation & Action - Part 1

  • مقدمه‌ای بر Transformation Introduction to Transformation

  • کار عملی: آشنایی با Transformation HandsOn : Intro to Transformation

  • گام به گام با Transformation Step-by-step Transformation

  • زنجیره تبدیل‌ها (Chain Transformation) Chain Transformation

  • تبدیلات describe, sort, limit, drop, dropDuplicates Transformation - describe, sort, limit, drop, dropDuplicates

  • اکشن‌های Spark و بارگذاری تنبل (Lazy Loading) Spark Action & Lazy Loading

  • کار عملی: اکشن‌های Spark و Lazy Loading HandsOn : Spark Action & Lazy Loading

  • کار عملی: بررسی Spark UI - جاب‌ها، Executorها و محیط HandsOn : Spark UI - Jobs, Executors, Environment

  • کار عملی: متد load() تبدیل است یا اکشن؟ HandsOn : load() - Transformation or Action??

  • کار عملی: مقایسه عملکرد فایل‌ها - CSV در مقابل Parquet HandsOn : File Performance Comparison - CSV vs Parquet

  • پروژه عملی ۱: Transformation و Action Assignment Project 1 - Transformation & Action

  • تبدیلات agg, groupBy, orderBy, selectExpr, subtract, withColumn, union Transformation - agg, groupBy, orderBy, selectExpr, subtract, withColumn, union

  • کار عملی: تبدیل‌های agg(), alias(), groupby() HandsOn : Transformation : agg(), alias(), groupby()

  • کار عملی: تبدیل join() HandsOn : Transformation : join()

  • کار عملی: تابع col() HandsOn : Function : col()

  • کار عملی: تبدیل‌های orderBy(), selectExpr() HandsOn : Transformation : orderBy(), selectExpr()

  • کار عملی: تبدیل subtract() HandsOn : Transformation : subtract()

  • کار عملی: تبدیل‌های union(), unionAll(), intersect(), withColumn() HandsOn : Transformation : union(), unionAll(), intersect(), withColumn()

  • فرآیند Shuffle و سرویس Shuffle خارجی (ESS) Shuffle Process & External Shuffle Service (ESS)

  • کار عملی: فرآیند Shuffle در groupBy() و توضیح با Spark UI HandsOn : Shuffle Process in groupBy() - Explanation using Spark UI

  • مقدار مناسب برای تعداد پارتیشن‌های Shuffle (spark.sql.shuffle.partitions) What should be the value of Shuffle Partition No (spark.sql.shuffle.partitions)

  • پروژه عملی ۲: Shuffle و Spark UI Assignment Project 2 : Shuffle & Spark UI

پارتیشن‌های Spark - ورودی، Shuffle و خروجی Spark Partitions - Input, Shuffle & Output

  • پارتیشن‌های ورودی Spark (spark.sql.files.maxPartitionBytes) Spark Input Partitions (spark.sql.files.maxPartitionBytes)

  • پارتیشن‌های خروجی - repartition(), coalesce() Output Partitions - repartition(), coalesce()

  • متد partitionBy() و تبدیل‌هایی که تعداد پارتیشن‌ها را تغییر می‌دهند partitionBy(), Transformations that change the no. of Partitions

  • حالت‌های خروجی DataFrame Writer DataFrame Writer Output Modes

بررسی دقیق Spark - بخش دوم Knowing Spark - Up Close Part 2

  • آیا دیتافریم‌ها حافظه را اشغال می‌کنند؟ Do Dataframes keep occupying memory ??

  • نحوه استفاده اپلیکیشن‌های Spark از حافظه و CPU و محاسبات آن How Spark Applications use Memory CPU & its calculation

  • چگونه اندازه کلاستر Spark در محیط Production را تعیین کنیم How to decide the size of Spark PROD Cluster

  • کاوش در Spark UI - مفاهیمی مانند WholeStageCodegen, MapPartitions, Exchange Explore Spark UI - WholeStageCodegen, MapPartitions, Exchange, etc.

  • مدیریت حافظه - حافظه Reserve, Execution, Storage و User Memory Memory Management - Reserve, Execution, Storage & User Memory

  • Memory Spilling، مدیریت حافظه یکپارچه و حافظه Off-heap Memory Spilling, Unified Memory Management & Off-heap Memory

  • Cache, Persist, Unpersist, ClearCache Cache, Persist, Unpersist, ClearCache

  • کار عملی: مانیتورینگ Memory Spill، کشینگ و Persist در Spark UI HANDS-ON : Monitor Memory Spill, Caching & Persist in Spark UI

  • جمع‌آوری زباله (GC) و سریال‌سازی Kryo در Spark Garbage Collection and Kryo Serialization in Spark

تبدیلات و اکشن‌ها بخش دوم + توابع Spark Transformation & Action Part 2 + Spark Functions

  • رابط برنامه‌نویسی collect() در دیتافریم Dataframe collect() API

  • استفاده از foreach() و foreachPartition() برای اعمال منطق سفارشی foreach() & foreachPartition() to apply customer logic on dataframe records

  • حلقه زدن روی رکوردهای دیتافریم - toLocalIterator(), df.na.fill() Loop/Iterate though Dataframe records - toLocalIterator(), df.na.fill()

  • توابع Spark - lit(), concat(), expr() Spark Functions - lit(), concat(), expr()

  • توابع تاریخ (DATE Functions) DATE Functions

  • توابع when() و otherwise() when() & otherwise() Functions

  • توابع پنجره‌ای (WINDOW Functions) WINDOW Functions

  • کار عملی: توابع WINDOW HandsOn : WINDOW Functions

  • تمرین: توابع WINDOW در Spark Assignment : Spark WINDOW Functions

  • پروژه عملی ۴: تحلیل توقف‌ها، فعالیت‌های سفر و اثرات محیط زیستی Assignment Project 4 - Layover Analysis, Travel Activity, Environment Impact

  • توابع lead(), lag(), nth_value(), first_value(), last_value() lead(), lag(), nth_value(), first_value(), last_value()

  • کار عملی: توابع lead, lag و سایر توابع مقداری HandsOn : lead(), lag(), nth_value(), first_value(), last_value()

بررسی دقیق Spark - بخش سوم Knowing Spark - Up Close Part 3

  • بهینه‌ساز Spark Catalyst و موتور اجرای Tungsten Spark Catalyst Optimizer & Tungsten Execution Engine

  • اتصال‌های داخلی Spark - Sort Merge Join (SMJ) Spark Internal Joins - Sort Merge Join (SMJ)

  • اتصال‌های داخلی Spark - Broadcast Hash Join (BHJ) Spark Internal Join - Broadcast Hash Join (BHJ)

  • اتصال‌های داخلی Spark - Broadcast Nested Loop Join (BNLJ) Spark Internal Join - Broadcast Nested Loop Join (BNLJ)

  • اتصال‌های داخلی Spark - Shuffled Hash Join (SHJ) Spark Internal Join - Shuffled Hash Join (SHJ)

  • اتصال‌های داخلی Spark - Shuffled NL Join (SNLJ)، راهنمای Join و عملکرد Spark Internal Join - Shuffled NL Join (SNLJ), Join Hints, Join Performance

  • عملگرهای SparkUI - HashAggregate, SortAggregate, BroadCastExchange SparkUI Operators - HashAggregate, SortAggregate, BroadCastExchange

  • عملگرهای SparkUI - BroadcastHashJoin, BroadcastNLJoin SparkUI Operators - BroadcastHashJoin, BroadcastNLJoin

  • عملگرهای SparkUI - ShuffledHashJoin, Limit, CollectLimit, Window SparkUI Operators - ShuffledHashJoin, Limit, CollectLimit, Window, ReusedExchang

  • کار عملی: عملگرهای Spark HANDS-ON : Spark Operators

  • دستور Spark Explain و نحوه خواندن خروجی آن Spark Explain & How to Read Explain Output

  • ناهمگونی داده‌ها (Data Skewness) Data Skewness or Skewed Data

  • کار عملی: تحلیل و یافتن Skewness داده‌ها با Spark UI HANDS-ON : Analyse & Find Data Skewness using Spark UI

  • کار عملی: تکنیک Salting برای کاهش اثر Skewness و Skew Joins HANDS-ON : Spark Salting - Mitigate Data Skewness and Skew Joins

  • کار عملی: پیاده‌سازی گام به گام Salting HANDS-ON : Implement Salting step-by-step

  • اجرای کوئری تطبیقی (AQE) و پارامترهای AQE Adaptive Query Execution (AQE), AQE Parameters

  • کار عملی: AQE Coalesce Shuffle Partitions HandsOn : AQE Coalesce Shuffle Partitions

  • کار عملی: بهینه‌سازی Data Skewness و Skewed Join با AQE HANDS-ON : AQE Optimize Data Skewness & Skewed Join

  • هرس دینامیک پارتیشن (Dynamic Partition Pruning) Dynamic Partition Pruning

  • تخصیص دینامیک منابع (DRA) Dynamic Resource Allocation (DRA)

  • جمع‌بندی نهایی و جامع SUPER SUMMARY

پلتفرم‌های میزبانی - AWS EMR (Elastic MapReduce) Hosting Platforms - AWS EMR (Elastic MapReduce)

  • مقدمه‌ای بر پلتفرم میزبانی EMR EMR Hosting Platform Introduction

  • ایجاد کلاستر EMR با نقش‌های IAM EMR Cluster Creation with IAM Roles

  • ملاحظات EMR - تنظیمات Spark و YARN و ارسال کد Spark EMR Considerartions - Spark, YARN Configuration Parameters, Submit Spark code to

  • کار عملی: آماده‌سازی محیط EMR برای اجرای اپلیکیشن‌های Spark HandsOn : Prepare EMR environment to execute Spark Applications

  • کار عملی: ارسال اپلیکیشن Spark به EMR از نود اصلی و لپ‌تاپ HandsOn : Submit Spark application to EMR from Primary Node & Laptop

  • کار عملی: اجرای چندین اپلیکیشن Spark به صورت متوالی با EMR Steps HandsOn : Run Multiple Spark Applications one-by-one using EMR Steps

  • مقدمه‌ای بر Jupyter Notebook در EMR Jupyter Notebook on EMR - Introduction

  • کار عملی: تنظیمات Security Group و پیش‌نیازهای IAM برای Jupyter HandsOn : Jupyter Notebook Security Group & IAM pre-requisites

  • کار عملی: ایجاد Jupyter Notebook و اجرای اپلیکیشن PySpark HandsOn : Create Jupyter Notebook and execute PySpark application

  • منابع و مقاصد دیتابیس‌های رابطه‌ای (RDBMS) Relational (RDBMS) Database Sources & Targets

  • کار عملی: نوشتن داده در مقصد RDBMS (MySQL) HANDS-ON : Write to RDBMS (MySQL) Target

  • کار عملی: خواندن داده از منبع RDBMS (MySQL) HANDS-ON : Read from RDBMS (MySQL) Source

  • منابع و مقاصد انبار داده (Data Warehouse) - Redshift Data Warehouse Source & Targets - Redshift

  • کار عملی: خواندن و نوشتن در انبار داده Redshift HANDS-ON : Read & Write from/to Redshift Data Warehouse

پروژه‌های عملی ۵ و ۶ (۲۰ گیگابایت + ۳۵ گیگابایت) - تحلیل شبکه برق و تحلیل ۳۶۰ درجه مشتری PROJECT ASSIGNMENT 5 & 6 (20GB + 35GB) - Power Grid Analysis, Customer 360 Ana

  • پروژه عملی ۵: تحلیل شبکه برق PROJECT ASSIGNMENT 5 - Power Grid Analysis

  • پروژه عملی ۶: تحلیل ۳۶۰ درجه مشتری PROJECT ASSIGNMENT 6 - Customer 360 Analytics

Spark SQL Spark SQL

  • مقدمه‌ای بر Spark SQL و استفاده از SQL روی دیتافریم‌ها Introduction to Spark SQL, SQL on DataFrames

  • کار عملی: تبدیل دیتافریم به SparkSQL HandsOn : DataFrame to SparkSQL

  • اشیای Spark SQL Spark SQL Objects

  • کار عملی: اشیای Spark SQL - دیتابیس‌ها و جداول HandsOn : Spark SQL Objects - Database, Tables

  • کار عملی: خواندن و نوشتن اشیای Spark SQL HandsOn : Read & Write Spark SQL Objects

  • کار عملی: اجرای SparkSQL در EMR با استفاده از Jupyter Notebook HANDS-ON - SparkSQL on EMR using Jupyter Notebook

  • پروژه ۶.۲: تحلیل ۳۶۰ درجه مشتری با Spark SQL Project Assignment 6.2 - Customer 360 Analytics using Spark SQL

  • پروژه ۷: ردیابی استفاده از اپلیکیشن موبایل Project Assignment 7 - Mobile App Usage Tracking

ساخت Lakehouse با استفاده از فرمت Open Table (Iceberg) Data Lakehouse using Open Table Format (OTF) - Iceberg

  • مقدمه‌ای بر Lakehouse و معماری Iceberg Lakehouse Introduction & Iceberg Architecture

  • کار عملی: معماری Iceberg HANDS-ON : Iceberg Architecture

  • پیکربندی Iceberg، مفاهیم COW، MOR، عملیات و ویژگی‌های جدول Iceberg Configuration, COW, MOR, Table Operations & Properties

  • کار عملی: ویژگی‌های جدول Iceberg HandsOn : Iceberg Table Properties

  • کار عملی: فایل‌های حذف Iceberg - Copy on Write (COW) و Merge on Read (MOR) HANDS-ON : Iceberg Delete files - copy-on-write (COW), merge-on-read (MOR)

  • مقایسه COW و MOR، کوئری‌های Time Travel و تاریخچه جدول COW or MOR??? Time Travel Queries, Iceberg Table History

  • کار عملی: متادیتای Iceberg و کوئری‌های Time Travel HANDS-ON : Iceberg Metadata, Time Travel Queries

  • نگهداری جدول Iceberg (Maintenance) Iceberg Table Maintenance

  • کار عملی: نگهداری جدول Iceberg HANDS-ON : Iceberg Table Maintenance

  • معماری Medallion و Lakehouse Medallion & Lakehouse Architecture

پروژه عملی ۸ - پیاده‌سازی معماری جامع Lakehouse (Iceberg) PROJECT ASSIGNMENT 8- End-to-end Lakehouse (Iceberg) Architecture Implementation

  • پروژه عملی ۸: خط مونتاژ با استفاده از Lakehouse PROJECT ASSIGNMENT 8 - Assembly Line using Lakehouse

Apache Kafka - ورود داده‌های جریانی (Streaming Ingestion) Apache Kafka - The Streaming Ingestion

  • مقدمه‌ای بر Kafka Introduction to Kafka

  • کار عملی: ایجاد کلاستر Kafka با استفاده از AWS MSK (Provisioned و Serverless) HANDS-ON : Create Kafka Cluster using AWS MSK (Provisioned & Serverless)

  • کار عملی: ایجاد کلاستر Kafka روی لپ‌تاپ HANDS-ON : Create Kafka Cluster on Laptop

  • اجزای Kafka - تاپیک‌ها و پارتیشن‌ها Kafka Components - Topics & Partitions

  • کار عملی: تاپیک‌ها و پارتیشن‌های Kafka HANDS-ON : Kafka Components - Topics & Partitions

  • بررسی دقیق Kafka - توپولوژی، Replication، توزیع پیام، خواندن و نوشتن Kafka Up Close - Topology, Replication, Message Distribution, Write & Read Data

  • تولیدکننده Kafka (Producer) - اپلیکیشن، API، پیکربندی و کتابخانه پایتون Kafka Producer - Application, API, Configuration, Sync-Async Send, Python Lib

  • کار عملی: اپلیکیشن Producer و ارسال رکورد به تاپیک HANDS-ON : Kafka Producer Application - Send Records to Topic

  • کار عملی: پیکربندی Kafka Producer HANDS-ON : Kafka Producer Configuration

  • مصرف‌کننده Kafka (Consumer) - اپلیکیشن، پیکربندی و Rebalance پارتیشن‌ها Kafka Consumer - Application, Configuration, Partition Rebalance

  • کار عملی: اپلیکیشن Consumer و مالکیت پارتیشن‌ها HANDS-ON : Kafka Consuler Application, Partition Ownership

  • کلاستر Kafka (MSK) و محاسبه نرخ انتقال (Throughput) تاپیک Kafka Cluster (MSK) & Topic Throughput Calculation

  • فرمت داده Avro و Glue Schema Registry Avro Data Format & Glue Schema Registry

  • کار عملی: ارسال داده‌های AVRO به Kafka با استفاده از Glue Schema Registry HANDS-ON : Send AVRO data to Kafka Topic using Glue Schema Registry

  • تکامل شمای (Schema Evolution) و پیکربندی Kafka Schema Evolution & Kafka Configuration

  • کار عملی: Schema Evolution با استفاده از Glue Schema Registry HANDS-ON : Schema Evolution using Glue Schema Registry

Spark Streaming - پردازش جریانی با استفاده از Spark Spark Streaming - Stream Processing using Spark

  • مقدمه‌ای بر Spark Streaming، تریگرها و حالت‌های خروجی (Output Mode) Spark Streaming Intro, Trigger, Output Mode

  • کار عملی: PySpark Streaming با استفاده از Console Sink HANDS-ON : PySpark Streaming using Console Sink

  • کار عملی: اجرای کد Streaming از PyCharm و استفاده از Spark History Server HANDS-ON : Execute Streaming code from PyCharm, use Spark History Server

  • کار عملی: حالت‌های خروجی (OUTPUT Mode) در Spark Streaming HANDS-ON : Spark Streaming OUTPUT Mode

  • کار عملی: State Store و Checkpointing در حالت‌های خروجی HANDS-ON : Streaming State Store & Checkpointing with Output Modes

  • مقدمه‌ای بر Event Time در پردازش جریانی Introduction to Event Time in Stream Processing

  • Event Time و پنجره‌های Tumbling Window Event Time - Tumbling Window

  • کار عملی: Tumbling Window HANDS-ON : Event Time - Tumbling Window

  • کار عملی: Sliding Window HANDS-ON : Event Time - Sliding Window

  • Watermark - مدیریت داده‌های دیر رسیده و State Store Watermark - Handle Late Data & Manage State Store

  • کار عملی: مدیریت داده‌های دیر رسیده با Watermark HANDS-ON : Watermark - Handle Late Data & Manage State Store

  • جمع‌بندی Spark Streaming Spark Streaming Conclusion

پروژه ۹ - تحلیل مسیر خودروها در زمان واقعی PROJECT 9 - Real Time Vehicle Route Analysis

  • تحلیل پوشش مسیر در زمان واقعی Real Time Route Coverage Analysis

  • تحلیل انحراف مسیر در زمان واقعی Real Time Route Deviation Analysis

استفاده از AWS Lambda برای پردازش داده‌ها AWS Lambda for Data Processing

  • مقدمه‌ای بر محاسبات بدون سرور (Serverless) و کاربردهای AWS Lambda Intro to Serverless Compute & AWS Lambda Use Cases

  • تابع Lambda و اجزای آن Lambda Function & its Components

  • کار عملی: پیکربندی تابع Lambda و اجزای آن HANDS-ON : Configure Lambda Function & its Components

  • مدل اجرای کد پایتون در Lambda Lambda (Python Code) Execution Model

  • کار عملی: نوشتن کد پایتون در کنسول Lambda و بررسی داده‌های Event HANDS-ON : Write Python Code from Lambda Console & Explore 'Event' data

  • کار عملی: تریگر S3 -> خواندن فایل -> کپی به /tmp -> چاپ داده‌ها HANDS-ON : S3 Trigger -> Read File -> Copy to /tmp -> Print data

  • کار عملی: تریگر S3 -> خواندن فایل -> پردازش -> نوشتن در S3 HANDS-ON : S3 Trigger -> Read File -> Process -> Write to S3

  • کار عملی: استقرار کد پایتون از S3 با استفاده از پکیج ZIP HANDS-ON : Deploy Python code from S3 using ZIP deployment package

  • کار عملی: استقرار پکیج‌ها و ماژول‌های اضافی پایتون در Lambda HANDS-ON : Deploy Additional Python Packages & Modules using ZIP in Lambda

  • کار عملی: تریگر S3 به دیتابیس و اجرای همزمان (Concurrent) Lambda HANDS-ON : S3 Trigger to Database & Concurrent Lambda Execution

  • طراحی معماری با استفاده از Lambda Architecture using Lambda

(اختیاری) مبانی AWS (Optional) AWS Essentials

  • مقدمه‌ای بر AWS Cloud و EC2 AWS Cloud and EC2 Intro

  • اجزای EC2 و تمرین عملی ۱ EC2 Components & HandsOn 1

  • تمرین عملی ۲ EC2 EC2 HandsOn 2

  • تئوری EBS EBS Theory

  • کار عملی EBS EBS HandsOn

  • مقدمه‌ای بر VPC و اجزای آن VPC Introduction & Components

  • کار عملی اجزای VPC VPC Components Hands On

  • Bastion Host Bastion Host

  • گروه‌های امنیتی (Security Groups) Security Groups

  • NAT Gateway و VPC Endpoint NAT Gateway & VPC Endpoint

  • اتصال VPC (VPC Peering) VPC Peering

  • مقدمه‌ای بر AWS IAM و تمرین عملی AWS IAM Intro & Hands On

  • نقش‌های سرویس IAM (Service Role) IAM Service Role

(اختیاری) مبانی SQL برای مهندسی داده (Optional) SQL Essentials for Data Engineering

  • مقدمه‌ای بر SQL SQL Introduction

  • راه‌اندازی کلاینت و سرور Client & Server Setup

  • تئوری اشیای دیتابیس Database Objects Theory

  • کار عملی اشیای دیتابیس Database Objects Hands On

  • عملیات CRUD CRUD Operations

  • عملگرهای SELECT SELECT Operators

  • CASE و COALESCE CASE COALESCE

  • توابع تاریخ (DATE Functions) DATE Functions

  • CTAS, Cast, Concat CTAS Cast Concat

  • Update, Delete, Truncate Update Delete Truncate

  • عبارت HAVING HAVING Clause

  • اتصال‌ها (Joins) Joins

  • Union, Intersect, View Union Intersect View

  • Materialized View Materialized View

  • عبارات جدولی مشترک (CTE) Common Table Expression (CTE)

نمایش نظرات

آموزش مهندسی داده جلد ۲ AWS: پردازش داده‌ها - Spark و Kafka
جزییات دوره
47.5 hours
193
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
74
4.9 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Soumyadeep Dey Soumyadeep Dey

Sr. Solutions Architect - Cloud