دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش مهندسی داده جلد ۲ AWS: پردازش داده‌ها - Spark و Kafka - آخرین آپدیت

دانلود Data Engineering Vol2 AWS : Data Processing - Spark & Kafka

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: پردازش دسته‌ای (Batch) و جریانی (Stream) با استفاده از Spark (PySpark) و Kafka در محیط AWS (EMR و Databricks) بررسی عمیق Spark و Kafka با استفاده از AWS EMR، Databricks و MSK درک مفاهیم مهندسی داده (جلد ۲) در AWS با بهره‌گیری از Spark و Kafka پیاده‌سازی پردازش‌های Batch و Stream با Spark و Kafka پروژه‌های سطح صنعتی و تمرینات عملی برای آماده‌سازی داوطلبان جهت ورود به محیط کار دسترسی به مجموعه‌داده‌هایی (Datasets) در ابعاد ۱۰۰ تا ۲۰۰ گیگابایت و تمرین با آن‌ها آموزش جامع پایتون برای مهندسی داده به صورت عملی (توابع، آرگومان‌ها، OOP، ماژول‌ها، پکیج‌ها، Multithreading، مدیریت فایل و غیره) آموزش جامع SQL برای مهندسی داده به صورت عملی (اشیاء دیتابیس، CASE، Window Functions، CTE، CTAS، MERGE، Materialized View و غیره) سرویس‌های تحلیل داده AWS شامل S3، EMR، Databricks و MSK پیش نیازها: آشنایی اولیه با AWS و SQL توصیه می‌شود.

این دوره جلد دوم مهندسی دادهاست. در این دوره در مورد تکنولوژی‌های متن‌باز پردازش داده یعنی Spark و Kafkaصحبت خواهم کرد که محبوب‌ترین فریم‌ورک‌های پردازش داده برای پردازش دسته‌ای و جریانی (Batch & Stream)هستند. در این دوره شما Spark را از سطح ۱۰۰ تا ۴۰۰ همراه با پروژه‌ها و تمرینات واقعی خواهید آموخت.همچنین شما را با Data Lake در AWS (سرویس S3) و Data Lakehouse با استفاده از Apache Icebergآشنا می‌کنم.

من از AWS به عنوان پلتفرم میزبانی استفاده کرده و درباره سرویس‌های EMR، S3و MSKتوضیح خواهم داد. همچنین Databricksرا به عنوان پلتفرم میزبانی Spark پوشش می‌دهم و نحوه یکپارچگی Spark با سایر سرویس‌ها مانند AWS RDS (MySQL یا PostgreSQL)و Redshiftرا نمایش خواهم داد.

شما فرصت کار عملی با مجموعه‌داده‌های حجیم (۱۰۰ تا ۳۰۰ گیگابایت یا بیشتر) را خواهید داشت.این دوره تمریناتی را ارائه می‌دهد که با سناریوهای واقعی مانند پردازش دسته‌ای Spark، پردازش جریانی، بهینه‌سازی عملکرد (Performance Tuning)، ورود داده‌های جریانی، Window functions و تراکنش‌های ACID روی Iceberg مطابقت دارد.

سایر نکات برجسته:

۱۰ پروژه با مجموعه‌داده‌های مختلف؛ مجموع حجم داده‌ها ۲۵۰ گیگابایت یا بیشتر.
پوشش سایر تکنولوژی‌ها شامل EC2، EBS، VPC و IAM.
ویدیوهای اختیاری پایتون
ویدیوهای ضروری و اختیاری AWS و SQL

من دوره مهندسی دادهرا با جلد ۳به پایان خواهم رساند که در آن مباحث زیر پوشش داده می‌شوند:

Flink
Apache Airflow
Apache Pinot
AWS Kinesis

لطفاً اگر مایل هستید مبحث دیگری اضافه شود، نظرات و پیشنهادات خود را ارسال کنید.

سرفصل ها و درس ها

مقدمه‌ای بر مهندسی داده جلد ۲ Introduction to Data Engineering Volume 2

مقدمه - داده‌ها، چرخه حیات داده و خط لوله مهندسی داده Introduction - Data, Data Lifecycle & Data Engineering Pipeline
مرور دوره مهندسی داده جلد ۲ و پروژه‌ها، نقش‌ها در حوزه داده Data Engineering Volume 2 Course & Projects Overview, Roles in Data
هزینه‌های منابع AWS برای این دوره AWS Resource Cost for the Course

پردازش داده‌های حجیم (Big Data Processing) Big Data Processing

محاسبات و ذخیره‌سازی توزیع شده، Big Data و MapReduce Distributed Compute & Storage, Big Data, MapReduce
وظایف Map و Reduce، اکوسیستم داده‌های حجیم Map & Reduce Tasks, Big Data Ecosystem
کار عملی: MapReduce با استفاده از کتابخانه پایتون mrjob HandsOn : MapReduce using "mrjob" Python Library
کار عملی: دستورات HDFS HandsOn : HDFS Commands
معماری و کاربرد YARN YARN - Architecture & Usage
ZooKeeper و فرمت‌های فایل Big Data (Parquet و Avro) ZooKeeper, Big Data File Formats - Parquet & Avro

آشنایی با Spark Introduction to Spark

مقدمه‌ای بر Spark، پردازش دسته‌ای و جریانی Introduction to Spark, Batch & Stream Processing
اکوسیستم Spark، توسعه، معماری و اجرا Spark Ecosystem, Development, Architecture & Execution
کدبیس Spark، JVM، نصب و پیکربندی، PySpark Spark Codebase, JVM, Setup & Configuration, PySpark

بررسی دقیق Spark - بخش اول Knowing Spark - Up Close Part 1

کلاستر Spark در AWS EMR Spark Cluster on AWS EMR
کلاستر مستقل Spark روی لپ‌تاپ و EC2، رابط کاربری Spark UI Spark Standalone Cluster on Laptop & EC2, Spark UI
حالت‌های استقرار اپلیکیشن Spark (deploy mode cluster|client) Spark Application Deployment Modes (--deploy-mode cluster|client)
دیتافریم‌ها (DataFrames)، DAG و ماژول PySpark DataFrames, DAG, PySpark Module
SparkSession SparkSession
خواننده و نویسنده دیتافریم (DataFrame Reader & Writer) DataFrame Reader & Writer
تعریف اسکیمای دیتافریم - StructType, StructField, inferSchema Define DataFrame Schema - StructType, StructField, inferSchema
رابطه بین Partition، Split، Task و Executor Partition, Split, Task, Executor Relation
پارتیشن‌ها و Splitها برای فایل‌های کوچک Partitions & Splits for Smaller Files

تبدیلات (Transformation) و اکشن‌های Spark - بخش اول Spark Transformation & Action - Part 1

مقدمه‌ای بر Transformation Introduction to Transformation
کار عملی: آشنایی با Transformation HandsOn : Intro to Transformation
گام به گام با Transformation Step-by-step Transformation
زنجیره تبدیل‌ها (Chain Transformation) Chain Transformation
تبدیلات describe, sort, limit, drop, dropDuplicates Transformation - describe, sort, limit, drop, dropDuplicates
اکشن‌های Spark و بارگذاری تنبل (Lazy Loading) Spark Action & Lazy Loading
کار عملی: اکشن‌های Spark و Lazy Loading HandsOn : Spark Action & Lazy Loading
کار عملی: بررسی Spark UI - جاب‌ها، Executorها و محیط HandsOn : Spark UI - Jobs, Executors, Environment
کار عملی: متد load() تبدیل است یا اکشن؟ HandsOn : load() - Transformation or Action??
کار عملی: مقایسه عملکرد فایل‌ها - CSV در مقابل Parquet HandsOn : File Performance Comparison - CSV vs Parquet
پروژه عملی ۱: Transformation و Action Assignment Project 1 - Transformation & Action
تبدیلات agg, groupBy, orderBy, selectExpr, subtract, withColumn, union Transformation - agg, groupBy, orderBy, selectExpr, subtract, withColumn, union
کار عملی: تبدیل‌های agg(), alias(), groupby() HandsOn : Transformation : agg(), alias(), groupby()
کار عملی: تبدیل join() HandsOn : Transformation : join()
کار عملی: تابع col() HandsOn : Function : col()
کار عملی: تبدیل‌های orderBy(), selectExpr() HandsOn : Transformation : orderBy(), selectExpr()
کار عملی: تبدیل subtract() HandsOn : Transformation : subtract()
کار عملی: تبدیل‌های union(), unionAll(), intersect(), withColumn() HandsOn : Transformation : union(), unionAll(), intersect(), withColumn()
فرآیند Shuffle و سرویس Shuffle خارجی (ESS) Shuffle Process & External Shuffle Service (ESS)
کار عملی: فرآیند Shuffle در groupBy() و توضیح با Spark UI HandsOn : Shuffle Process in groupBy() - Explanation using Spark UI
مقدار مناسب برای تعداد پارتیشن‌های Shuffle (spark.sql.shuffle.partitions) What should be the value of Shuffle Partition No (spark.sql.shuffle.partitions)
پروژه عملی ۲: Shuffle و Spark UI Assignment Project 2 : Shuffle & Spark UI

پارتیشن‌های Spark - ورودی، Shuffle و خروجی Spark Partitions - Input, Shuffle & Output

پارتیشن‌های ورودی Spark (spark.sql.files.maxPartitionBytes) Spark Input Partitions (spark.sql.files.maxPartitionBytes)
پارتیشن‌های خروجی - repartition(), coalesce() Output Partitions - repartition(), coalesce()
متد partitionBy() و تبدیل‌هایی که تعداد پارتیشن‌ها را تغییر می‌دهند partitionBy(), Transformations that change the no. of Partitions
حالت‌های خروجی DataFrame Writer DataFrame Writer Output Modes

بررسی دقیق Spark - بخش دوم Knowing Spark - Up Close Part 2

آیا دیتافریم‌ها حافظه را اشغال می‌کنند؟ Do Dataframes keep occupying memory ??
نحوه استفاده اپلیکیشن‌های Spark از حافظه و CPU و محاسبات آن How Spark Applications use Memory CPU & its calculation
چگونه اندازه کلاستر Spark در محیط Production را تعیین کنیم How to decide the size of Spark PROD Cluster
کاوش در Spark UI - مفاهیمی مانند WholeStageCodegen, MapPartitions, Exchange Explore Spark UI - WholeStageCodegen, MapPartitions, Exchange, etc.
مدیریت حافظه - حافظه Reserve, Execution, Storage و User Memory Memory Management - Reserve, Execution, Storage & User Memory
Memory Spilling، مدیریت حافظه یکپارچه و حافظه Off-heap Memory Spilling, Unified Memory Management & Off-heap Memory
Cache, Persist, Unpersist, ClearCache Cache, Persist, Unpersist, ClearCache
کار عملی: مانیتورینگ Memory Spill، کشینگ و Persist در Spark UI HANDS-ON : Monitor Memory Spill, Caching & Persist in Spark UI
جمع‌آوری زباله (GC) و سریال‌سازی Kryo در Spark Garbage Collection and Kryo Serialization in Spark

تبدیلات و اکشن‌ها بخش دوم + توابع Spark Transformation & Action Part 2 + Spark Functions

رابط برنامه‌نویسی collect() در دیتافریم Dataframe collect() API
استفاده از foreach() و foreachPartition() برای اعمال منطق سفارشی foreach() & foreachPartition() to apply customer logic on dataframe records
حلقه زدن روی رکوردهای دیتافریم - toLocalIterator(), df.na.fill() Loop/Iterate though Dataframe records - toLocalIterator(), df.na.fill()
توابع Spark - lit(), concat(), expr() Spark Functions - lit(), concat(), expr()
توابع تاریخ (DATE Functions) DATE Functions
توابع when() و otherwise() when() & otherwise() Functions
توابع پنجره‌ای (WINDOW Functions) WINDOW Functions
کار عملی: توابع WINDOW HandsOn : WINDOW Functions
تمرین: توابع WINDOW در Spark Assignment : Spark WINDOW Functions
پروژه عملی ۴: تحلیل توقف‌ها، فعالیت‌های سفر و اثرات محیط زیستی Assignment Project 4 - Layover Analysis, Travel Activity, Environment Impact
توابع lead(), lag(), nth_value(), first_value(), last_value() lead(), lag(), nth_value(), first_value(), last_value()
کار عملی: توابع lead, lag و سایر توابع مقداری HandsOn : lead(), lag(), nth_value(), first_value(), last_value()

بررسی دقیق Spark - بخش سوم Knowing Spark - Up Close Part 3

بهینه‌ساز Spark Catalyst و موتور اجرای Tungsten Spark Catalyst Optimizer & Tungsten Execution Engine
اتصال‌های داخلی Spark - Sort Merge Join (SMJ) Spark Internal Joins - Sort Merge Join (SMJ)
اتصال‌های داخلی Spark - Broadcast Hash Join (BHJ) Spark Internal Join - Broadcast Hash Join (BHJ)
اتصال‌های داخلی Spark - Broadcast Nested Loop Join (BNLJ) Spark Internal Join - Broadcast Nested Loop Join (BNLJ)
اتصال‌های داخلی Spark - Shuffled Hash Join (SHJ) Spark Internal Join - Shuffled Hash Join (SHJ)
اتصال‌های داخلی Spark - Shuffled NL Join (SNLJ)، راهنمای Join و عملکرد Spark Internal Join - Shuffled NL Join (SNLJ), Join Hints, Join Performance
عملگرهای SparkUI - HashAggregate, SortAggregate, BroadCastExchange SparkUI Operators - HashAggregate, SortAggregate, BroadCastExchange
عملگرهای SparkUI - BroadcastHashJoin, BroadcastNLJoin SparkUI Operators - BroadcastHashJoin, BroadcastNLJoin
عملگرهای SparkUI - ShuffledHashJoin, Limit, CollectLimit, Window SparkUI Operators - ShuffledHashJoin, Limit, CollectLimit, Window, ReusedExchang
کار عملی: عملگرهای Spark HANDS-ON : Spark Operators
دستور Spark Explain و نحوه خواندن خروجی آن Spark Explain & How to Read Explain Output
ناهمگونی داده‌ها (Data Skewness) Data Skewness or Skewed Data
کار عملی: تحلیل و یافتن Skewness داده‌ها با Spark UI HANDS-ON : Analyse & Find Data Skewness using Spark UI
کار عملی: تکنیک Salting برای کاهش اثر Skewness و Skew Joins HANDS-ON : Spark Salting - Mitigate Data Skewness and Skew Joins
کار عملی: پیاده‌سازی گام به گام Salting HANDS-ON : Implement Salting step-by-step
اجرای کوئری تطبیقی (AQE) و پارامترهای AQE Adaptive Query Execution (AQE), AQE Parameters
کار عملی: AQE Coalesce Shuffle Partitions HandsOn : AQE Coalesce Shuffle Partitions
کار عملی: بهینه‌سازی Data Skewness و Skewed Join با AQE HANDS-ON : AQE Optimize Data Skewness & Skewed Join
هرس دینامیک پارتیشن (Dynamic Partition Pruning) Dynamic Partition Pruning
تخصیص دینامیک منابع (DRA) Dynamic Resource Allocation (DRA)
جمع‌بندی نهایی و جامع SUPER SUMMARY

پلتفرم‌های میزبانی - AWS EMR (Elastic MapReduce) Hosting Platforms - AWS EMR (Elastic MapReduce)

مقدمه‌ای بر پلتفرم میزبانی EMR EMR Hosting Platform Introduction
ایجاد کلاستر EMR با نقش‌های IAM EMR Cluster Creation with IAM Roles
ملاحظات EMR - تنظیمات Spark و YARN و ارسال کد Spark EMR Considerartions - Spark, YARN Configuration Parameters, Submit Spark code to
کار عملی: آماده‌سازی محیط EMR برای اجرای اپلیکیشن‌های Spark HandsOn : Prepare EMR environment to execute Spark Applications
کار عملی: ارسال اپلیکیشن Spark به EMR از نود اصلی و لپ‌تاپ HandsOn : Submit Spark application to EMR from Primary Node & Laptop
کار عملی: اجرای چندین اپلیکیشن Spark به صورت متوالی با EMR Steps HandsOn : Run Multiple Spark Applications one-by-one using EMR Steps
مقدمه‌ای بر Jupyter Notebook در EMR Jupyter Notebook on EMR - Introduction
کار عملی: تنظیمات Security Group و پیش‌نیازهای IAM برای Jupyter HandsOn : Jupyter Notebook Security Group & IAM pre-requisites
کار عملی: ایجاد Jupyter Notebook و اجرای اپلیکیشن PySpark HandsOn : Create Jupyter Notebook and execute PySpark application
منابع و مقاصد دیتابیس‌های رابطه‌ای (RDBMS) Relational (RDBMS) Database Sources & Targets
کار عملی: نوشتن داده در مقصد RDBMS (MySQL) HANDS-ON : Write to RDBMS (MySQL) Target
کار عملی: خواندن داده از منبع RDBMS (MySQL) HANDS-ON : Read from RDBMS (MySQL) Source
منابع و مقاصد انبار داده (Data Warehouse) - Redshift Data Warehouse Source & Targets - Redshift
کار عملی: خواندن و نوشتن در انبار داده Redshift HANDS-ON : Read & Write from/to Redshift Data Warehouse

پروژه‌های عملی ۵ و ۶ (۲۰ گیگابایت + ۳۵ گیگابایت) - تحلیل شبکه برق و تحلیل ۳۶۰ درجه مشتری PROJECT ASSIGNMENT 5 & 6 (20GB + 35GB) - Power Grid Analysis, Customer 360 Ana

پروژه عملی ۵: تحلیل شبکه برق PROJECT ASSIGNMENT 5 - Power Grid Analysis
پروژه عملی ۶: تحلیل ۳۶۰ درجه مشتری PROJECT ASSIGNMENT 6 - Customer 360 Analytics

Spark SQL Spark SQL

مقدمه‌ای بر Spark SQL و استفاده از SQL روی دیتافریم‌ها Introduction to Spark SQL, SQL on DataFrames
کار عملی: تبدیل دیتافریم به SparkSQL HandsOn : DataFrame to SparkSQL
اشیای Spark SQL Spark SQL Objects
کار عملی: اشیای Spark SQL - دیتابیس‌ها و جداول HandsOn : Spark SQL Objects - Database, Tables
کار عملی: خواندن و نوشتن اشیای Spark SQL HandsOn : Read & Write Spark SQL Objects
کار عملی: اجرای SparkSQL در EMR با استفاده از Jupyter Notebook HANDS-ON - SparkSQL on EMR using Jupyter Notebook
پروژه ۶.۲: تحلیل ۳۶۰ درجه مشتری با Spark SQL Project Assignment 6.2 - Customer 360 Analytics using Spark SQL
پروژه ۷: ردیابی استفاده از اپلیکیشن موبایل Project Assignment 7 - Mobile App Usage Tracking

ساخت Lakehouse با استفاده از فرمت Open Table (Iceberg) Data Lakehouse using Open Table Format (OTF) - Iceberg

مقدمه‌ای بر Lakehouse و معماری Iceberg Lakehouse Introduction & Iceberg Architecture
کار عملی: معماری Iceberg HANDS-ON : Iceberg Architecture
پیکربندی Iceberg، مفاهیم COW، MOR، عملیات و ویژگی‌های جدول Iceberg Configuration, COW, MOR, Table Operations & Properties
کار عملی: ویژگی‌های جدول Iceberg HandsOn : Iceberg Table Properties
کار عملی: فایل‌های حذف Iceberg - Copy on Write (COW) و Merge on Read (MOR) HANDS-ON : Iceberg Delete files - copy-on-write (COW), merge-on-read (MOR)
مقایسه COW و MOR، کوئری‌های Time Travel و تاریخچه جدول COW or MOR??? Time Travel Queries, Iceberg Table History
کار عملی: متادیتای Iceberg و کوئری‌های Time Travel HANDS-ON : Iceberg Metadata, Time Travel Queries
نگهداری جدول Iceberg (Maintenance) Iceberg Table Maintenance
کار عملی: نگهداری جدول Iceberg HANDS-ON : Iceberg Table Maintenance
معماری Medallion و Lakehouse Medallion & Lakehouse Architecture

پروژه عملی ۸ - پیاده‌سازی معماری جامع Lakehouse (Iceberg) PROJECT ASSIGNMENT 8- End-to-end Lakehouse (Iceberg) Architecture Implementation

پروژه عملی ۸: خط مونتاژ با استفاده از Lakehouse PROJECT ASSIGNMENT 8 - Assembly Line using Lakehouse

Apache Kafka - ورود داده‌های جریانی (Streaming Ingestion) Apache Kafka - The Streaming Ingestion

مقدمه‌ای بر Kafka Introduction to Kafka
کار عملی: ایجاد کلاستر Kafka با استفاده از AWS MSK (Provisioned و Serverless) HANDS-ON : Create Kafka Cluster using AWS MSK (Provisioned & Serverless)
کار عملی: ایجاد کلاستر Kafka روی لپ‌تاپ HANDS-ON : Create Kafka Cluster on Laptop
اجزای Kafka - تاپیک‌ها و پارتیشن‌ها Kafka Components - Topics & Partitions
کار عملی: تاپیک‌ها و پارتیشن‌های Kafka HANDS-ON : Kafka Components - Topics & Partitions
بررسی دقیق Kafka - توپولوژی، Replication، توزیع پیام، خواندن و نوشتن Kafka Up Close - Topology, Replication, Message Distribution, Write & Read Data
تولیدکننده Kafka (Producer) - اپلیکیشن، API، پیکربندی و کتابخانه پایتون Kafka Producer - Application, API, Configuration, Sync-Async Send, Python Lib
کار عملی: اپلیکیشن Producer و ارسال رکورد به تاپیک HANDS-ON : Kafka Producer Application - Send Records to Topic
کار عملی: پیکربندی Kafka Producer HANDS-ON : Kafka Producer Configuration
مصرف‌کننده Kafka (Consumer) - اپلیکیشن، پیکربندی و Rebalance پارتیشن‌ها Kafka Consumer - Application, Configuration, Partition Rebalance
کار عملی: اپلیکیشن Consumer و مالکیت پارتیشن‌ها HANDS-ON : Kafka Consuler Application, Partition Ownership
کلاستر Kafka (MSK) و محاسبه نرخ انتقال (Throughput) تاپیک Kafka Cluster (MSK) & Topic Throughput Calculation
فرمت داده Avro و Glue Schema Registry Avro Data Format & Glue Schema Registry
کار عملی: ارسال داده‌های AVRO به Kafka با استفاده از Glue Schema Registry HANDS-ON : Send AVRO data to Kafka Topic using Glue Schema Registry
تکامل شمای (Schema Evolution) و پیکربندی Kafka Schema Evolution & Kafka Configuration
کار عملی: Schema Evolution با استفاده از Glue Schema Registry HANDS-ON : Schema Evolution using Glue Schema Registry

Spark Streaming - پردازش جریانی با استفاده از Spark Spark Streaming - Stream Processing using Spark

مقدمه‌ای بر Spark Streaming، تریگرها و حالت‌های خروجی (Output Mode) Spark Streaming Intro, Trigger, Output Mode
کار عملی: PySpark Streaming با استفاده از Console Sink HANDS-ON : PySpark Streaming using Console Sink
کار عملی: اجرای کد Streaming از PyCharm و استفاده از Spark History Server HANDS-ON : Execute Streaming code from PyCharm, use Spark History Server
کار عملی: حالت‌های خروجی (OUTPUT Mode) در Spark Streaming HANDS-ON : Spark Streaming OUTPUT Mode
کار عملی: State Store و Checkpointing در حالت‌های خروجی HANDS-ON : Streaming State Store & Checkpointing with Output Modes
مقدمه‌ای بر Event Time در پردازش جریانی Introduction to Event Time in Stream Processing
Event Time و پنجره‌های Tumbling Window Event Time - Tumbling Window
کار عملی: Tumbling Window HANDS-ON : Event Time - Tumbling Window
کار عملی: Sliding Window HANDS-ON : Event Time - Sliding Window
Watermark - مدیریت داده‌های دیر رسیده و State Store Watermark - Handle Late Data & Manage State Store
کار عملی: مدیریت داده‌های دیر رسیده با Watermark HANDS-ON : Watermark - Handle Late Data & Manage State Store
جمع‌بندی Spark Streaming Spark Streaming Conclusion

پروژه ۹ - تحلیل مسیر خودروها در زمان واقعی PROJECT 9 - Real Time Vehicle Route Analysis

تحلیل پوشش مسیر در زمان واقعی Real Time Route Coverage Analysis
تحلیل انحراف مسیر در زمان واقعی Real Time Route Deviation Analysis

استفاده از AWS Lambda برای پردازش داده‌ها AWS Lambda for Data Processing

مقدمه‌ای بر محاسبات بدون سرور (Serverless) و کاربردهای AWS Lambda Intro to Serverless Compute & AWS Lambda Use Cases
تابع Lambda و اجزای آن Lambda Function & its Components
کار عملی: پیکربندی تابع Lambda و اجزای آن HANDS-ON : Configure Lambda Function & its Components
مدل اجرای کد پایتون در Lambda Lambda (Python Code) Execution Model
کار عملی: نوشتن کد پایتون در کنسول Lambda و بررسی داده‌های Event HANDS-ON : Write Python Code from Lambda Console & Explore 'Event' data
کار عملی: تریگر S3 -> خواندن فایل -> کپی به /tmp -> چاپ داده‌ها HANDS-ON : S3 Trigger -> Read File -> Copy to /tmp -> Print data
کار عملی: تریگر S3 -> خواندن فایل -> پردازش -> نوشتن در S3 HANDS-ON : S3 Trigger -> Read File -> Process -> Write to S3
کار عملی: استقرار کد پایتون از S3 با استفاده از پکیج ZIP HANDS-ON : Deploy Python code from S3 using ZIP deployment package
کار عملی: استقرار پکیج‌ها و ماژول‌های اضافی پایتون در Lambda HANDS-ON : Deploy Additional Python Packages & Modules using ZIP in Lambda
کار عملی: تریگر S3 به دیتابیس و اجرای همزمان (Concurrent) Lambda HANDS-ON : S3 Trigger to Database & Concurrent Lambda Execution
طراحی معماری با استفاده از Lambda Architecture using Lambda

(اختیاری) مبانی AWS (Optional) AWS Essentials

مقدمه‌ای بر AWS Cloud و EC2 AWS Cloud and EC2 Intro
اجزای EC2 و تمرین عملی ۱ EC2 Components & HandsOn 1
تمرین عملی ۲ EC2 EC2 HandsOn 2
تئوری EBS EBS Theory
کار عملی EBS EBS HandsOn
مقدمه‌ای بر VPC و اجزای آن VPC Introduction & Components
کار عملی اجزای VPC VPC Components Hands On
Bastion Host Bastion Host
گروه‌های امنیتی (Security Groups) Security Groups
NAT Gateway و VPC Endpoint NAT Gateway & VPC Endpoint
اتصال VPC (VPC Peering) VPC Peering
مقدمه‌ای بر AWS IAM و تمرین عملی AWS IAM Intro & Hands On
نقش‌های سرویس IAM (Service Role) IAM Service Role

(اختیاری) مبانی SQL برای مهندسی داده (Optional) SQL Essentials for Data Engineering

مقدمه‌ای بر SQL SQL Introduction
راه‌اندازی کلاینت و سرور Client & Server Setup
تئوری اشیای دیتابیس Database Objects Theory
کار عملی اشیای دیتابیس Database Objects Hands On
عملیات CRUD CRUD Operations
عملگرهای SELECT SELECT Operators
CASE و COALESCE CASE COALESCE
توابع تاریخ (DATE Functions) DATE Functions
CTAS, Cast, Concat CTAS Cast Concat
Update, Delete, Truncate Update Delete Truncate
عبارت HAVING HAVING Clause
اتصال‌ها (Joins) Joins
Union, Intersect, View Union Intersect View
Materialized View Materialized View
عبارات جدولی مشترک (CTE) Common Table Expression (CTE)

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش مهندسی داده جلد ۲ AWS: پردازش داده‌ها - Spark و Kafka

جزییات دوره

زمان دوره: 47.5 hours

تعداد ویدیو ها: 193

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 74

امتیاز مرجع: 4.9 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Soumyadeep Dey

لینک کوتاه این دوره

https://donyad.com/d/c52dc6

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

بازاریابی

دیگر

آموزش مهندسی داده جلد ۲ AWS: پردازش داده‌ها - Spark و Kafka - آخرین آپدیت

دانلود Data Engineering Vol2 AWS : Data Processing - Spark & Kafka

مقدمه‌ای بر مهندسی داده جلد ۲ Introduction to Data Engineering Volume 2

مقدمه - داده‌ها، چرخه حیات داده و خط لوله مهندسی داده Introduction - Data, Data Lifecycle & Data Engineering Pipeline

مرور دوره مهندسی داده جلد ۲ و پروژه‌ها، نقش‌ها در حوزه داده Data Engineering Volume 2 Course & Projects Overview, Roles in Data

هزینه‌های منابع AWS برای این دوره AWS Resource Cost for the Course

پردازش داده‌های حجیم (Big Data Processing) Big Data Processing

محاسبات و ذخیره‌سازی توزیع شده، Big Data و MapReduce Distributed Compute & Storage, Big Data, MapReduce

وظایف Map و Reduce، اکوسیستم داده‌های حجیم Map & Reduce Tasks, Big Data Ecosystem

کار عملی: MapReduce با استفاده از کتابخانه پایتون mrjob HandsOn : MapReduce using "mrjob" Python Library

کار عملی: دستورات HDFS HandsOn : HDFS Commands

معماری و کاربرد YARN YARN - Architecture & Usage

ZooKeeper و فرمت‌های فایل Big Data (Parquet و Avro) ZooKeeper, Big Data File Formats - Parquet & Avro

آشنایی با Spark Introduction to Spark

مقدمه‌ای بر Spark، پردازش دسته‌ای و جریانی Introduction to Spark, Batch & Stream Processing

اکوسیستم Spark، توسعه، معماری و اجرا Spark Ecosystem, Development, Architecture & Execution

کدبیس Spark، JVM، نصب و پیکربندی، PySpark Spark Codebase, JVM, Setup & Configuration, PySpark

بررسی دقیق Spark - بخش اول Knowing Spark - Up Close Part 1

کلاستر Spark در AWS EMR Spark Cluster on AWS EMR

کلاستر مستقل Spark روی لپ‌تاپ و EC2، رابط کاربری Spark UI Spark Standalone Cluster on Laptop & EC2, Spark UI

حالت‌های استقرار اپلیکیشن Spark (deploy mode cluster|client) Spark Application Deployment Modes (--deploy-mode cluster|client)

دیتافریم‌ها (DataFrames)، DAG و ماژول PySpark DataFrames, DAG, PySpark Module

SparkSession SparkSession

خواننده و نویسنده دیتافریم (DataFrame Reader & Writer) DataFrame Reader & Writer

تعریف اسکیمای دیتافریم - StructType, StructField, inferSchema Define DataFrame Schema - StructType, StructField, inferSchema

رابطه بین Partition، Split، Task و Executor Partition, Split, Task, Executor Relation

پارتیشن‌ها و Splitها برای فایل‌های کوچک Partitions & Splits for Smaller Files

تبدیلات (Transformation) و اکشن‌های Spark - بخش اول Spark Transformation & Action - Part 1

مقدمه‌ای بر Transformation Introduction to Transformation

کار عملی: آشنایی با Transformation HandsOn : Intro to Transformation

گام به گام با Transformation Step-by-step Transformation

زنجیره تبدیل‌ها (Chain Transformation) Chain Transformation

تبدیلات describe, sort, limit, drop, dropDuplicates Transformation - describe, sort, limit, drop, dropDuplicates

اکشن‌های Spark و بارگذاری تنبل (Lazy Loading) Spark Action & Lazy Loading

کار عملی: اکشن‌های Spark و Lazy Loading HandsOn : Spark Action & Lazy Loading

کار عملی: بررسی Spark UI - جاب‌ها، Executorها و محیط HandsOn : Spark UI - Jobs, Executors, Environment

کار عملی: متد load() تبدیل است یا اکشن؟ HandsOn : load() - Transformation or Action??

کار عملی: مقایسه عملکرد فایل‌ها - CSV در مقابل Parquet HandsOn : File Performance Comparison - CSV vs Parquet

پروژه عملی ۱: Transformation و Action Assignment Project 1 - Transformation & Action

تبدیلات agg, groupBy, orderBy, selectExpr, subtract, withColumn, union Transformation - agg, groupBy, orderBy, selectExpr, subtract, withColumn, union

کار عملی: تبدیل‌های agg(), alias(), groupby() HandsOn : Transformation : agg(), alias(), groupby()

کار عملی: تبدیل join() HandsOn : Transformation : join()

کار عملی: تابع col() HandsOn : Function : col()

کار عملی: تبدیل‌های orderBy(), selectExpr() HandsOn : Transformation : orderBy(), selectExpr()

کار عملی: تبدیل subtract() HandsOn : Transformation : subtract()

کار عملی: تبدیل‌های union(), unionAll(), intersect(), withColumn() HandsOn : Transformation : union(), unionAll(), intersect(), withColumn()

فرآیند Shuffle و سرویس Shuffle خارجی (ESS) Shuffle Process & External Shuffle Service (ESS)

کار عملی: فرآیند Shuffle در groupBy() و توضیح با Spark UI HandsOn : Shuffle Process in groupBy() - Explanation using Spark UI

مقدار مناسب برای تعداد پارتیشن‌های Shuffle (spark.sql.shuffle.partitions) What should be the value of Shuffle Partition No (spark.sql.shuffle.partitions)

پروژه عملی ۲: Shuffle و Spark UI Assignment Project 2 : Shuffle & Spark UI

پارتیشن‌های Spark - ورودی، Shuffle و خروجی Spark Partitions - Input, Shuffle & Output

پارتیشن‌های ورودی Spark (spark.sql.files.maxPartitionBytes) Spark Input Partitions (spark.sql.files.maxPartitionBytes)

پارتیشن‌های خروجی - repartition(), coalesce() Output Partitions - repartition(), coalesce()

متد partitionBy() و تبدیل‌هایی که تعداد پارتیشن‌ها را تغییر می‌دهند partitionBy(), Transformations that change the no. of Partitions

حالت‌های خروجی DataFrame Writer DataFrame Writer Output Modes

بررسی دقیق Spark - بخش دوم Knowing Spark - Up Close Part 2

آیا دیتافریم‌ها حافظه را اشغال می‌کنند؟ Do Dataframes keep occupying memory ??

نحوه استفاده اپلیکیشن‌های Spark از حافظه و CPU و محاسبات آن How Spark Applications use Memory CPU & its calculation

چگونه اندازه کلاستر Spark در محیط Production را تعیین کنیم How to decide the size of Spark PROD Cluster

کاوش در Spark UI - مفاهیمی مانند WholeStageCodegen, MapPartitions, Exchange Explore Spark UI - WholeStageCodegen, MapPartitions, Exchange, etc.

مدیریت حافظه - حافظه Reserve, Execution, Storage و User Memory Memory Management - Reserve, Execution, Storage & User Memory

Memory Spilling، مدیریت حافظه یکپارچه و حافظه Off-heap Memory Spilling, Unified Memory Management & Off-heap Memory

Cache, Persist, Unpersist, ClearCache Cache, Persist, Unpersist, ClearCache

کار عملی: مانیتورینگ Memory Spill، کشینگ و Persist در Spark UI HANDS-ON : Monitor Memory Spill, Caching & Persist in Spark UI

جمع‌آوری زباله (GC) و سریال‌سازی Kryo در Spark Garbage Collection and Kryo Serialization in Spark

تبدیلات و اکشن‌ها بخش دوم + توابع Spark Transformation & Action Part 2 + Spark Functions

رابط برنامه‌نویسی collect() در دیتافریم Dataframe collect() API

استفاده از foreach() و foreachPartition() برای اعمال منطق سفارشی foreach() & foreachPartition() to apply customer logic on dataframe records

حلقه زدن روی رکوردهای دیتافریم - toLocalIterator(), df.na.fill() Loop/Iterate though Dataframe records - toLocalIterator(), df.na.fill()

توابع Spark - lit(), concat(), expr() Spark Functions - lit(), concat(), expr()

توابع تاریخ (DATE Functions) DATE Functions

توابع when() و otherwise() when() & otherwise() Functions

توابع پنجره‌ای (WINDOW Functions) WINDOW Functions

کار عملی: توابع WINDOW HandsOn : WINDOW Functions

تمرین: توابع WINDOW در Spark Assignment : Spark WINDOW Functions

پروژه عملی ۴: تحلیل توقف‌ها، فعالیت‌های سفر و اثرات محیط زیستی Assignment Project 4 - Layover Analysis, Travel Activity, Environment Impact

توابع lead(), lag(), nth_value(), first_value(), last_value() lead(), lag(), nth_value(), first_value(), last_value()

کار عملی: توابع lead, lag و سایر توابع مقداری HandsOn : lead(), lag(), nth_value(), first_value(), last_value()