آموزش Spark 3 در Google Cloud Platform-سطح مبتدی تا پیشرفته

Spark 3 on Google Cloud Platform-Beginner to Advanced Level

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: ساخت خطوط مقیاس پذیر دسته ای و پردازش داده در زمان واقعی با PySpark و Dataproc درک اصول Apache Spark3 از جمله معماری و اجزای توسعه و استقرار PySpark Jobs در Dataproc در GCP از جمله راه اندازی یک خوشه و مدیریت منابع کسب تجربه عملی در استفاده از Spark3 برای پیشرفته پردازش دسته ای داده ها، یادگیری ماشین و تجزیه و تحلیل زمان واقعی بهترین روش ها برای بهینه سازی عملکرد Spark3 در GCP از جمله مقیاس خودکار، تنظیم دقیق و ادغام با سایر اجزای GCP

آیا می‌خواهید با Apache Spark و Google Cloud وارد پردازش و تجزیه و تحلیل داده‌های بزرگ شوید؟ این دوره برای کمک به شما در تسلط بر PySpark 3.3 و استفاده از پتانسیل کامل آن برای پردازش حجم زیادی از داده ها در یک محیط توزیع شده طراحی شده است. با یادگیری نحوه اعمال

یاد خواهید گرفت که چگونه کارهای پردازش داده کارآمد، مقیاس پذیر و مقاوم به خطا بسازید.
  • تغییر قاب داده با APIهای Dataframe،

  • SparkSQL

  • استقرار Spark Jobs همانطور که در سناریوهای دنیای واقعی انجام می شود

  • ادغام کردن spark jobها با سایر اجزا در GCP

  • پیاده‌سازی موارد استفاده یادگیری ماشین در زمان واقعی با ایجاد یک سیستم توصیه محصول.

این دوره برای مهندسان داده، تحلیلگران داده، دانشمندان داده و هر کسی که علاقه مند به پردازش کلان داده با Apache Spark و Google Cloud است در نظر گرفته شده است. همچنین برای دانش‌آموزان و متخصصانی که می‌خواهند مهارت‌های خود را در پردازش و تجزیه و تحلیل داده‌های بزرگ با استفاده از فناوری‌های PySpark و Google Cloud تقویت کنند، مناسب است.

چرا این دوره را بگذرانید؟

در این دوره، تجربه عملی در طراحی، ساخت و استقرار خطوط لوله پردازش داده های بزرگ با استفاده از PySpark در Google Cloud کسب خواهید کرد. شما یاد خواهید گرفت که چگونه مجموعه داده های بزرگ را به صورت موازی به عملی ترین روش بدون نیاز به نصب یا اجرای چیزی در رایانه محلی خود پردازش کنید.

در پایان این دوره، مهارت و اعتماد به نفس برای مقابله با مشکلات پردازش داده های بزرگ در دنیای واقعی و ارائه راه حل های با کیفیت بالا با استفاده از PySpark و سایر فناوری های Google Cloud را خواهید داشت.

خواه مهندس داده، تحلیلگر داده، یا دانشمند مشتاق داده باشید، این دوره جامع به شما مهارت و دانش را برای پردازش حجم عظیمی از داده ها با استفاده از PySpark و Google Cloud مجهز می کند.

به‌علاوه، با بخش آخری که به سؤالات و نکات مصاحبه اختصاص داده شده است، به خوبی برای انجام مصاحبه مهندسی داده یا کلان داده بعدی خود آماده خواهید شد.



سرفصل ها و درس ها

معرفی Introduction

  • معرفی و بررسی اجمالی دوره Course Introduction and Overview

  • مخزن GitHub برای دوره GitHub repository for the course

  • یک حساب آزمایشی GCP راه اندازی کنید Setup a Trial GCP Account

  • Gcloud SDK را نصب و راه اندازی کنید Install and Setup the Gcloud SDK

شروع کار با Spark Fundamentals Getting Started with Spark Fundamentals

  • مقدمه ای بر Dataproc در GCP Introduction to Dataproc on GCP

  • مروری بر معماری Sparks Overview of Sparks Architecture

  • Datalake در مقابل Datawarehouse Datalake vs Datawarehouse

  • نقش اسپارک در اکوسیستم کلان داده Role of Spark in Big Data Ecosystem

  • مروری بر Spark API ها Overview of Spark APIs

  • چه چیزی در Spark3 جدید است؟ Whats new in Spark3 ?

  • آیا باید Spark را در سال 2023 یاد بگیرم؟ Should i be learning Spark in 2023?

شروع به کار با Spark DataFrame API Getting started with Spark DataFrame API

  • بخش مقدمه Section Introduction

  • آزمایشگاه - یک خوشه Dataproc ایجاد کنید Lab - Create a Dataproc Cluster

  • آزمایشگاه - مروری بر نوت بوک Jupyter و اجزای مختلف Lab - Walkthrough of Jupyter Notebook and different components

  • Lab- Basic Dataframe Operations در PySpark Lab- Basic Dataframe Operations in PySpark

  • آزمایشگاه - تایپ کست و استخراج ستون مهر زمان Lab - Typecasting & timestamp column extraction

  • آزمایشگاه ها - تجمعات چارچوب داده Labs - Dataframe Aggregations

  • انتساب بر روی Dataframe Aggregations Assignment on Dataframe Aggregations

  • تحولات و اقدامات در اسپارک Transformations and Actions in Spark

  • آزمایشگاه - تبدیل های پیشرفته با استفاده از توابع پنجره Lab - Advanced transformations using Window Functions

  • آزمایشگاه - عملیات پنجره نورد Lab - Rolling Window Operations

  • آزمایشگاه - داده های تبدیل شده را به یک سینک بازنویسی کنید: سطل GCS و BigQuery Lab - Write transformed data back to a sink : GCS Bucket and BigQuery

  • آزمایشگاه - از Spark-Submit برای ارسال مشاغل به کلاسترهای dataproc استفاده کنید Lab - Use Spark-Submit to submit jobs to dataproc clusters

شروع کار با SparkSql در Spark3 Getting started with SparkSql in Spark3

  • مقدمه ای بر SparkSql Introduction to SparkSql

  • انواع مختلف میز در اسپارک Different Types of Tables in Spark

  • آزمایشگاه - ایجاد جداول برای SparkSql Lab - Create Tables for SparkSql

  • آزمایشگاه - عملکردهای پنجره تحلیلی و ایجاد جداول دائمی Lab - Analytical Window Functions and creating permanent tables

  • آزمایشگاه - انجام Join در Dataframe Lab - Perform Joins on Dataframes

  • پارتیشن ها در Spark Dataframes چیست؟ What are Partitions in Spark Dataframes?

  • آزمایشگاه - پارتیشن بندی مجدد دیتافریم ها را انجام دهید Lab - Perform repartitioning of dataframes

  • مخلوط کردن داده ها در Joins Data Shuffling in Joins

  • آزمایشگاه - توابع تعریف شده توسط کاربر در Spark Lab - User defined functions in Spark

مفاهیم جرقه - مقیاس خودکار، بهینه سازی و هشدار Spark Concepts - Autoscaling , Optimization and Alerting

  • بهینه ساز کاتالیزور در جرقه چیست؟ What is a catalyst optimizer in spark ?

  • Cache و Persist در Spark Cache and Persist in Spark

  • Autoscaling در اسپارک و دیتاپروک چیست؟ What is Autoscaling in spark and dataproc?

  • آزمایشگاه - سیاست های مقیاس بندی خودکار را در خوشه های Dataproc اعمال کنید Lab - Apply Autoscaling Policies to Dataproc Clusters

  • مقدمه ای بر Dataproc Workflows Introduction to Dataproc Workflows

  • آزمایشگاه - گردش کار GCP را اجرا کنید Lab - Execute GCP Workflows

  • آزمایشگاه - Cloud Scheduler برای خودکارسازی گردش کار Lab - Cloud Scheduler to automate Workflow Execution

  • چک پوینت در اسپارک چیست؟ What is Checkpointing in Spark?

  • Broadcast Join چیست؟ What are Broadcast Joins?

  • آزمایشگاه - راه اندازی سیاست های هشدار برای Spark Jobs Lab - Setup Alerting Policies for Spark Jobs

پروژه - خط لوله پردازش دسته ای End to End با استفاده از Spark Project - End to End Batch processing pipeline using Spark

  • معرفی پروژه Project Introduction

  • آزمایشگاه - نمونه MySql و پایگاه داده را بر روی GCP تنظیم کنید Lab - Setup MySql Instance and Database on GCP

  • آزمایشگاه - داده ها را در MySql وارد کنید Lab - Ingest Data into MySql

  • آزمایشگاه - راه اندازی Dataproc با اقدامات اولیه Lab - Setup Dataproc with initialization actions

  • Assignment Lab - راه اندازی اتصال از PySpark به MySql Db Assignment Lab - Setup Connectivity from PySpark to MySql Db

  • Assignment Lab - تبدیل ها را با استفاده از PySpark انجام دهید Assignment Lab - Perform transformations using PySpark

  • آزمایشگاه - گردش کار را برای اجرای خط لوله انتها به انتها تنظیم کنید Lab - Setup Workflows to execute end-to-end pipeline

تجزیه و تحلیل زمان واقعی با جریان ساختار یافته Spark Real Time Analytics With Spark Structured Streaming

  • بخش مقدمه Section Introduction

  • مروری بر PusSub Lite Overview of PusSub Lite

  • Windows Tumbling چیست؟ What are Tumbling Windows ?

  • واترمارکینگ چیست؟ What is Watermarking?

  • ویندوز کشویی چیست؟ What are Sliding Windows?

  • آزمایشگاه - رزرو PubSub Lite ایجاد کنید Lab - Create PubSub Lite Reservation

  • آزمایشگاه - انتشار داده ها در PubSub و تست با استفاده از PySpark Lab - Publish Data to PubSub and Testing using PySpark

  • آزمایشگاه - اجرای Tumbling Windows Lab - Implement Tumbling Windows

  • آزمایشگاه -اجرای پنجره غلتشی با واترمارکینگ Lab -Implement Tumbling Window with Watermarking

  • آزمایشگاه- اجرای پنجره های کشویی Lab- Implement Sliding Windows

در جریان داده می پیوندد Joins on Streaming Data

  • مروری بر پیوستن به Dataframe جریانی Overview of Joining Streaming Dataframe

  • آزمایشگاه -به Streaming Dataframe با Static Dataframe بپیوندید Lab -Join Streaming Dataframe with Static Dataframe

  • آزمایشگاه - به 2 قالب داده جریانی بپیوندید Lab - Join 2 Streaming Dataframes

  • آزمایشگاه - از Watermarking در اتصالات جریانی استفاده کنید Lab - Use Watermarking in Streaming Joins

پروژه فیلترینگ مشارکتی بلادرنگ Real Time Collaborative Filtering Project

  • مروری بر Use Case Overview of the Use Case

  • آزمایشگاه - آموزش مدل با استفاده از ML Library و Code Walkthrough Lab - Model Training using ML Library and Code Walkthrough

  • آزمایشگاه - مرور کد و انتشار داده ها Lab - Code Walkthrough and Publish Data

  • آزمایشگاه - مدل پیشنهادی محصول در زمان واقعی در عمل Lab - Real Time Product Recommendation Model in Action

برای سوالات مصاحبه در اسپارک آماده شوید Prep Up for the Interview Questions on Spark

  • مقدمه و نکات Introduction and Tips

  • سوالات مصاحبه پردازش دسته ای داده - قسمت 1 Batch Data Processing Interview Questions - Part 1

  • سوالات مصاحبه پردازش دسته ای داده - قسمت 2 Batch Data Processing Interview Questions - Part 2

  • سوالات مصاحبه پردازش دسته ای - قسمت 3 Batch Processing Interview Questions - Part 3

  • سوالات مصاحبه پردازش داده ها در زمان واقعی - قسمت 1 Real Time Data Processing Interview Questions - Part 1

  • سوالات مصاحبه پردازش داده ها در زمان واقعی - قسمت 2 Real Time Data Processing Interview Questions - Part 2

نمایش نظرات

آموزش Spark 3 در Google Cloud Platform-سطح مبتدی تا پیشرفته
جزییات دوره
5.5 hours
72
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
102
4.9 از 5
دارد
دارد
دارد
No Latency
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

No Latency No Latency

ابر/مهندسی داده/تحلیل/معماری