لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش Spark 3 در Google Cloud Platform-سطح مبتدی تا پیشرفته
Spark 3 on Google Cloud Platform-Beginner to Advanced Level
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
ساخت خطوط مقیاس پذیر دسته ای و پردازش داده در زمان واقعی با PySpark و Dataproc درک اصول Apache Spark3 از جمله معماری و اجزای توسعه و استقرار PySpark Jobs در Dataproc در GCP از جمله راه اندازی یک خوشه و مدیریت منابع کسب تجربه عملی در استفاده از Spark3 برای پیشرفته پردازش دسته ای داده ها، یادگیری ماشین و تجزیه و تحلیل زمان واقعی بهترین روش ها برای بهینه سازی عملکرد Spark3 در GCP از جمله مقیاس خودکار، تنظیم دقیق و ادغام با سایر اجزای GCP
آیا میخواهید با Apache Spark و Google Cloud وارد پردازش و تجزیه و تحلیل دادههای بزرگ شوید؟ این دوره برای کمک به شما در تسلط بر PySpark 3.3 و استفاده از پتانسیل کامل آن برای پردازش حجم زیادی از داده ها در یک محیط توزیع شده طراحی شده است. با یادگیری نحوه اعمال
یاد خواهید گرفت که چگونه کارهای پردازش داده کارآمد، مقیاس پذیر و مقاوم به خطا بسازید.
تغییر قاب داده با APIهای Dataframe،
SparkSQL
استقرار Spark Jobs همانطور که در سناریوهای دنیای واقعی انجام می شود
ادغام کردن spark jobها با سایر اجزا در GCP
پیادهسازی موارد استفاده یادگیری ماشین در زمان واقعی با ایجاد یک سیستم توصیه محصول.
این دوره برای مهندسان داده، تحلیلگران داده، دانشمندان داده و هر کسی که علاقه مند به پردازش کلان داده با Apache Spark و Google Cloud است در نظر گرفته شده است. همچنین برای دانشآموزان و متخصصانی که میخواهند مهارتهای خود را در پردازش و تجزیه و تحلیل دادههای بزرگ با استفاده از فناوریهای PySpark و Google Cloud تقویت کنند، مناسب است.
چرا این دوره را بگذرانید؟
در این دوره، تجربه عملی در طراحی، ساخت و استقرار خطوط لوله پردازش داده های بزرگ با استفاده از PySpark در Google Cloud کسب خواهید کرد. شما یاد خواهید گرفت که چگونه مجموعه داده های بزرگ را به صورت موازی به عملی ترین روش بدون نیاز به نصب یا اجرای چیزی در رایانه محلی خود پردازش کنید.
در پایان این دوره، مهارت و اعتماد به نفس برای مقابله با مشکلات پردازش داده های بزرگ در دنیای واقعی و ارائه راه حل های با کیفیت بالا با استفاده از PySpark و سایر فناوری های Google Cloud را خواهید داشت.
خواه مهندس داده، تحلیلگر داده، یا دانشمند مشتاق داده باشید، این دوره جامع به شما مهارت و دانش را برای پردازش حجم عظیمی از داده ها با استفاده از PySpark و Google Cloud مجهز می کند.
بهعلاوه، با بخش آخری که به سؤالات و نکات مصاحبه اختصاص داده شده است، به خوبی برای انجام مصاحبه مهندسی داده یا کلان داده بعدی خود آماده خواهید شد.
سرفصل ها و درس ها
معرفی
Introduction
معرفی و بررسی اجمالی دوره
Course Introduction and Overview
مخزن GitHub برای دوره
GitHub repository for the course
یک حساب آزمایشی GCP راه اندازی کنید
Setup a Trial GCP Account
Gcloud SDK را نصب و راه اندازی کنید
Install and Setup the Gcloud SDK
شروع کار با Spark Fundamentals
Getting Started with Spark Fundamentals
مقدمه ای بر Dataproc در GCP
Introduction to Dataproc on GCP
مروری بر معماری Sparks
Overview of Sparks Architecture
Datalake در مقابل Datawarehouse
Datalake vs Datawarehouse
نقش اسپارک در اکوسیستم کلان داده
Role of Spark in Big Data Ecosystem
مروری بر Spark API ها
Overview of Spark APIs
چه چیزی در Spark3 جدید است؟
Whats new in Spark3 ?
آیا باید Spark را در سال 2023 یاد بگیرم؟
Should i be learning Spark in 2023?
شروع به کار با Spark DataFrame API
Getting started with Spark DataFrame API
بخش مقدمه
Section Introduction
آزمایشگاه - یک خوشه Dataproc ایجاد کنید
Lab - Create a Dataproc Cluster
آزمایشگاه - مروری بر نوت بوک Jupyter و اجزای مختلف
Lab - Walkthrough of Jupyter Notebook and different components
Lab- Basic Dataframe Operations در PySpark
Lab- Basic Dataframe Operations in PySpark
آزمایشگاه - تایپ کست و استخراج ستون مهر زمان
Lab - Typecasting & timestamp column extraction
آزمایشگاه ها - تجمعات چارچوب داده
Labs - Dataframe Aggregations
انتساب بر روی Dataframe Aggregations
Assignment on Dataframe Aggregations
تحولات و اقدامات در اسپارک
Transformations and Actions in Spark
آزمایشگاه - تبدیل های پیشرفته با استفاده از توابع پنجره
Lab - Advanced transformations using Window Functions
آزمایشگاه - عملیات پنجره نورد
Lab - Rolling Window Operations
آزمایشگاه - داده های تبدیل شده را به یک سینک بازنویسی کنید: سطل GCS و BigQuery
Lab - Write transformed data back to a sink : GCS Bucket and BigQuery
آزمایشگاه - از Spark-Submit برای ارسال مشاغل به کلاسترهای dataproc استفاده کنید
Lab - Use Spark-Submit to submit jobs to dataproc clusters
شروع کار با SparkSql در Spark3
Getting started with SparkSql in Spark3
مقدمه ای بر SparkSql
Introduction to SparkSql
انواع مختلف میز در اسپارک
Different Types of Tables in Spark
آزمایشگاه - ایجاد جداول برای SparkSql
Lab - Create Tables for SparkSql
آزمایشگاه - عملکردهای پنجره تحلیلی و ایجاد جداول دائمی
Lab - Analytical Window Functions and creating permanent tables
آزمایشگاه - انجام Join در Dataframe
Lab - Perform Joins on Dataframes
پارتیشن ها در Spark Dataframes چیست؟
What are Partitions in Spark Dataframes?
آزمایشگاه - پارتیشن بندی مجدد دیتافریم ها را انجام دهید
Lab - Perform repartitioning of dataframes
مخلوط کردن داده ها در Joins
Data Shuffling in Joins
آزمایشگاه - توابع تعریف شده توسط کاربر در Spark
Lab - User defined functions in Spark
مفاهیم جرقه - مقیاس خودکار، بهینه سازی و هشدار
Spark Concepts - Autoscaling , Optimization and Alerting
بهینه ساز کاتالیزور در جرقه چیست؟
What is a catalyst optimizer in spark ?
Cache و Persist در Spark
Cache and Persist in Spark
Autoscaling در اسپارک و دیتاپروک چیست؟
What is Autoscaling in spark and dataproc?
آزمایشگاه - سیاست های مقیاس بندی خودکار را در خوشه های Dataproc اعمال کنید
Lab - Apply Autoscaling Policies to Dataproc Clusters
مقدمه ای بر Dataproc Workflows
Introduction to Dataproc Workflows
آزمایشگاه - گردش کار GCP را اجرا کنید
Lab - Execute GCP Workflows
آزمایشگاه - Cloud Scheduler برای خودکارسازی گردش کار
Lab - Cloud Scheduler to automate Workflow Execution
چک پوینت در اسپارک چیست؟
What is Checkpointing in Spark?
Broadcast Join چیست؟
What are Broadcast Joins?
آزمایشگاه - راه اندازی سیاست های هشدار برای Spark Jobs
Lab - Setup Alerting Policies for Spark Jobs
پروژه - خط لوله پردازش دسته ای End to End با استفاده از Spark
Project - End to End Batch processing pipeline using Spark
معرفی پروژه
Project Introduction
آزمایشگاه - نمونه MySql و پایگاه داده را بر روی GCP تنظیم کنید
Lab - Setup MySql Instance and Database on GCP
آزمایشگاه - داده ها را در MySql وارد کنید
Lab - Ingest Data into MySql
آزمایشگاه - راه اندازی Dataproc با اقدامات اولیه
Lab - Setup Dataproc with initialization actions
Assignment Lab - راه اندازی اتصال از PySpark به MySql Db
Assignment Lab - Setup Connectivity from PySpark to MySql Db
Assignment Lab - تبدیل ها را با استفاده از PySpark انجام دهید
Assignment Lab - Perform transformations using PySpark
آزمایشگاه - گردش کار را برای اجرای خط لوله انتها به انتها تنظیم کنید
Lab - Setup Workflows to execute end-to-end pipeline
تجزیه و تحلیل زمان واقعی با جریان ساختار یافته Spark
Real Time Analytics With Spark Structured Streaming
بخش مقدمه
Section Introduction
مروری بر PusSub Lite
Overview of PusSub Lite
Windows Tumbling چیست؟
What are Tumbling Windows ?
واترمارکینگ چیست؟
What is Watermarking?
ویندوز کشویی چیست؟
What are Sliding Windows?
آزمایشگاه - رزرو PubSub Lite ایجاد کنید
Lab - Create PubSub Lite Reservation
آزمایشگاه - انتشار داده ها در PubSub و تست با استفاده از PySpark
Lab - Publish Data to PubSub and Testing using PySpark
آزمایشگاه - اجرای Tumbling Windows
Lab - Implement Tumbling Windows
آزمایشگاه -اجرای پنجره غلتشی با واترمارکینگ
Lab -Implement Tumbling Window with Watermarking
آزمایشگاه- اجرای پنجره های کشویی
Lab- Implement Sliding Windows
در جریان داده می پیوندد
Joins on Streaming Data
مروری بر پیوستن به Dataframe جریانی
Overview of Joining Streaming Dataframe
آزمایشگاه -به Streaming Dataframe با Static Dataframe بپیوندید
Lab -Join Streaming Dataframe with Static Dataframe
آزمایشگاه - به 2 قالب داده جریانی بپیوندید
Lab - Join 2 Streaming Dataframes
آزمایشگاه - از Watermarking در اتصالات جریانی استفاده کنید
Lab - Use Watermarking in Streaming Joins
پروژه فیلترینگ مشارکتی بلادرنگ
Real Time Collaborative Filtering Project
مروری بر Use Case
Overview of the Use Case
آزمایشگاه - آموزش مدل با استفاده از ML Library و Code Walkthrough
Lab - Model Training using ML Library and Code Walkthrough
آزمایشگاه - مرور کد و انتشار داده ها
Lab - Code Walkthrough and Publish Data
آزمایشگاه - مدل پیشنهادی محصول در زمان واقعی در عمل
Lab - Real Time Product Recommendation Model in Action
برای سوالات مصاحبه در اسپارک آماده شوید
Prep Up for the Interview Questions on Spark
مقدمه و نکات
Introduction and Tips
سوالات مصاحبه پردازش دسته ای داده - قسمت 1
Batch Data Processing Interview Questions - Part 1
سوالات مصاحبه پردازش دسته ای داده - قسمت 2
Batch Data Processing Interview Questions - Part 2
سوالات مصاحبه پردازش دسته ای - قسمت 3
Batch Processing Interview Questions - Part 3
سوالات مصاحبه پردازش داده ها در زمان واقعی - قسمت 1
Real Time Data Processing Interview Questions - Part 1
سوالات مصاحبه پردازش داده ها در زمان واقعی - قسمت 2
Real Time Data Processing Interview Questions - Part 2
نمایش نظرات