لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش مهندسی داده جلد ۲ AWS: پردازش دادهها - Spark و Kafka
- آخرین آپدیت
دانلود Data Engineering Vol2 AWS : Data Processing - Spark & Kafka
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
پردازش دستهای (Batch) و جریانی (Stream) با استفاده از Spark (PySpark) و Kafka در محیط AWS (EMR و Databricks)
بررسی عمیق Spark و Kafka با استفاده از AWS EMR، Databricks و MSK
درک مفاهیم مهندسی داده (جلد ۲) در AWS با بهرهگیری از Spark و Kafka
پیادهسازی پردازشهای Batch و Stream با Spark و Kafka
پروژههای سطح صنعتی و تمرینات عملی برای آمادهسازی داوطلبان جهت ورود به محیط کار
دسترسی به مجموعهدادههایی (Datasets) در ابعاد ۱۰۰ تا ۲۰۰ گیگابایت و تمرین با آنها
آموزش جامع پایتون برای مهندسی داده به صورت عملی (توابع، آرگومانها، OOP، ماژولها، پکیجها، Multithreading، مدیریت فایل و غیره)
آموزش جامع SQL برای مهندسی داده به صورت عملی (اشیاء دیتابیس، CASE، Window Functions، CTE، CTAS، MERGE، Materialized View و غیره)
سرویسهای تحلیل داده AWS شامل S3، EMR، Databricks و MSK
پیش نیازها: آشنایی اولیه با AWS و SQL توصیه میشود.
این دوره جلد دوم مهندسی دادهاست. در این دوره در مورد تکنولوژیهای متنباز پردازش داده یعنی Spark و Kafkaصحبت خواهم کرد که محبوبترین فریمورکهای پردازش داده برای پردازش دستهای و جریانی (Batch & Stream)هستند. در این دوره شما Spark را از سطح ۱۰۰ تا ۴۰۰ همراه با پروژهها و تمرینات واقعی خواهید آموخت.همچنین شما را با Data Lake در AWS (سرویس S3) و Data Lakehouse با استفاده از Apache Icebergآشنا میکنم.
من از AWS به عنوان پلتفرم میزبانی استفاده کرده و درباره سرویسهای EMR، S3و MSKتوضیح خواهم داد. همچنین Databricksرا به عنوان پلتفرم میزبانی Spark پوشش میدهم و نحوه یکپارچگی Spark با سایر سرویسها مانند AWS RDS (MySQL یا PostgreSQL)و Redshiftرا نمایش خواهم داد.
شما فرصت کار عملی با مجموعهدادههای حجیم (۱۰۰ تا ۳۰۰ گیگابایت یا بیشتر) را خواهید داشت.این دوره تمریناتی را ارائه میدهد که با سناریوهای واقعی مانند پردازش دستهای Spark، پردازش جریانی، بهینهسازی عملکرد (Performance Tuning)، ورود دادههای جریانی، Window functions و تراکنشهای ACID روی Iceberg مطابقت دارد.
سایر نکات برجسته:
۱۰ پروژه با مجموعهدادههای مختلف؛ مجموع حجم دادهها ۲۵۰ گیگابایت یا بیشتر.
پوشش سایر تکنولوژیها شامل EC2، EBS، VPC و IAM.
ویدیوهای اختیاری پایتون
ویدیوهای ضروری و اختیاری AWS و SQL
من دوره مهندسی دادهرا با جلد ۳به پایان خواهم رساند که در آن مباحث زیر پوشش داده میشوند:
Flink
Apache Airflow
Apache Pinot
AWS Kinesis
لطفاً اگر مایل هستید مبحث دیگری اضافه شود، نظرات و پیشنهادات خود را ارسال کنید.
سرفصل ها و درس ها
مقدمهای بر مهندسی داده جلد ۲
Introduction to Data Engineering Volume 2
مقدمه - دادهها، چرخه حیات داده و خط لوله مهندسی داده
Introduction - Data, Data Lifecycle & Data Engineering Pipeline
مرور دوره مهندسی داده جلد ۲ و پروژهها، نقشها در حوزه داده
Data Engineering Volume 2 Course & Projects Overview, Roles in Data
هزینههای منابع AWS برای این دوره
AWS Resource Cost for the Course
پردازش دادههای حجیم (Big Data Processing)
Big Data Processing
محاسبات و ذخیرهسازی توزیع شده، Big Data و MapReduce
Distributed Compute & Storage, Big Data, MapReduce
وظایف Map و Reduce، اکوسیستم دادههای حجیم
Map & Reduce Tasks, Big Data Ecosystem
کار عملی: MapReduce با استفاده از کتابخانه پایتون mrjob
HandsOn : MapReduce using "mrjob" Python Library
کار عملی: دستورات HDFS
HandsOn : HDFS Commands
معماری و کاربرد YARN
YARN - Architecture & Usage
ZooKeeper و فرمتهای فایل Big Data (Parquet و Avro)
ZooKeeper, Big Data File Formats - Parquet & Avro
آشنایی با Spark
Introduction to Spark
مقدمهای بر Spark، پردازش دستهای و جریانی
Introduction to Spark, Batch & Stream Processing
فرآیند Shuffle و سرویس Shuffle خارجی (ESS)
Shuffle Process & External Shuffle Service (ESS)
کار عملی: فرآیند Shuffle در groupBy() و توضیح با Spark UI
HandsOn : Shuffle Process in groupBy() - Explanation using Spark UI
مقدار مناسب برای تعداد پارتیشنهای Shuffle (spark.sql.shuffle.partitions)
What should be the value of Shuffle Partition No (spark.sql.shuffle.partitions)
مقدمهای بر پلتفرم میزبانی EMR
EMR Hosting Platform Introduction
ایجاد کلاستر EMR با نقشهای IAM
EMR Cluster Creation with IAM Roles
ملاحظات EMR - تنظیمات Spark و YARN و ارسال کد Spark
EMR Considerartions - Spark, YARN Configuration Parameters, Submit Spark code to
کار عملی: آمادهسازی محیط EMR برای اجرای اپلیکیشنهای Spark
HandsOn : Prepare EMR environment to execute Spark Applications
کار عملی: ارسال اپلیکیشن Spark به EMR از نود اصلی و لپتاپ
HandsOn : Submit Spark application to EMR from Primary Node & Laptop
کار عملی: اجرای چندین اپلیکیشن Spark به صورت متوالی با EMR Steps
HandsOn : Run Multiple Spark Applications one-by-one using EMR Steps
مقدمهای بر Jupyter Notebook در EMR
Jupyter Notebook on EMR - Introduction
کار عملی: تنظیمات Security Group و پیشنیازهای IAM برای Jupyter
HandsOn : Jupyter Notebook Security Group & IAM pre-requisites
کار عملی: ایجاد Jupyter Notebook و اجرای اپلیکیشن PySpark
HandsOn : Create Jupyter Notebook and execute PySpark application
منابع و مقاصد دیتابیسهای رابطهای (RDBMS)
Relational (RDBMS) Database Sources & Targets
کار عملی: نوشتن داده در مقصد RDBMS (MySQL)
HANDS-ON : Write to RDBMS (MySQL) Target
کار عملی: خواندن داده از منبع RDBMS (MySQL)
HANDS-ON : Read from RDBMS (MySQL) Source
منابع و مقاصد انبار داده (Data Warehouse) - Redshift
Data Warehouse Source & Targets - Redshift
کار عملی: خواندن و نوشتن در انبار داده Redshift
HANDS-ON : Read & Write from/to Redshift Data Warehouse
پروژههای عملی ۵ و ۶ (۲۰ گیگابایت + ۳۵ گیگابایت) - تحلیل شبکه برق و تحلیل ۳۶۰ درجه مشتری
PROJECT ASSIGNMENT 5 & 6 (20GB + 35GB) - Power Grid Analysis, Customer 360 Ana
پروژه عملی ۵: تحلیل شبکه برق
PROJECT ASSIGNMENT 5 - Power Grid Analysis
نمایش نظرات