دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش Spark 3 در Google Cloud Platform-سطح مبتدی تا پیشرفته

Spark 3 on Google Cloud Platform-Beginner to Advanced Level hot and new

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: ساخت خطوط مقیاس پذیر دسته ای و پردازش داده در زمان واقعی با PySpark و Dataproc درک اصول Apache Spark3 از جمله معماری و اجزای توسعه و استقرار PySpark Jobs در Dataproc در GCP از جمله راه اندازی یک خوشه و مدیریت منابع کسب تجربه عملی در استفاده از Spark3 برای پیشرفته پردازش دسته ای داده ها، یادگیری ماشین و تجزیه و تحلیل زمان واقعی بهترین روش ها برای بهینه سازی عملکرد Spark3 در GCP از جمله مقیاس خودکار، تنظیم دقیق و ادغام با سایر اجزای GCP

آیا می‌خواهید با Apache Spark و Google Cloud وارد پردازش و تجزیه و تحلیل داده‌های بزرگ شوید؟ این دوره برای کمک به شما در تسلط بر PySpark 3.3 و استفاده از پتانسیل کامل آن برای پردازش حجم زیادی از داده ها در یک محیط توزیع شده طراحی شده است. با یادگیری نحوه اعمال

یاد خواهید گرفت که چگونه کارهای پردازش داده کارآمد، مقیاس پذیر و مقاوم به خطا بسازید.

تغییر قاب داده با APIهای Dataframe،
SparkSQL
استقرار Spark Jobs همانطور که در سناریوهای دنیای واقعی انجام می شود
ادغام کردن spark jobها با سایر اجزا در GCP
پیاده‌سازی موارد استفاده یادگیری ماشین در زمان واقعی با ایجاد یک سیستم توصیه محصول.

این دوره برای مهندسان داده، تحلیلگران داده، دانشمندان داده و هر کسی که علاقه مند به پردازش کلان داده با Apache Spark و Google Cloud است در نظر گرفته شده است. همچنین برای دانش‌آموزان و متخصصانی که می‌خواهند مهارت‌های خود را در پردازش و تجزیه و تحلیل داده‌های بزرگ با استفاده از فناوری‌های PySpark و Google Cloud تقویت کنند، مناسب است.

چرا این دوره را بگذرانید؟

در این دوره، تجربه عملی در طراحی، ساخت و استقرار خطوط لوله پردازش داده های بزرگ با استفاده از PySpark در Google Cloud کسب خواهید کرد. شما یاد خواهید گرفت که چگونه مجموعه داده های بزرگ را به صورت موازی به عملی ترین روش بدون نیاز به نصب یا اجرای چیزی در رایانه محلی خود پردازش کنید.

در پایان این دوره، مهارت و اعتماد به نفس برای مقابله با مشکلات پردازش داده های بزرگ در دنیای واقعی و ارائه راه حل های با کیفیت بالا با استفاده از PySpark و سایر فناوری های Google Cloud را خواهید داشت.

خواه مهندس داده، تحلیلگر داده، یا دانشمند مشتاق داده باشید، این دوره جامع به شما مهارت و دانش را برای پردازش حجم عظیمی از داده ها با استفاده از PySpark و Google Cloud مجهز می کند.

به‌علاوه، با بخش آخری که به سؤالات و نکات مصاحبه اختصاص داده شده است، به خوبی برای انجام مصاحبه مهندسی داده یا کلان داده بعدی خود آماده خواهید شد.

سرفصل ها و درس ها

معرفی Introduction

معرفی و بررسی اجمالی دوره Course Introduction and Overview
مخزن GitHub برای دوره GitHub repository for the course
یک حساب آزمایشی GCP راه اندازی کنید Setup a Trial GCP Account
Gcloud SDK را نصب و راه اندازی کنید Install and Setup the Gcloud SDK

شروع کار با Spark Fundamentals Getting Started with Spark Fundamentals

مقدمه ای بر Dataproc در GCP Introduction to Dataproc on GCP
مروری بر معماری Sparks Overview of Sparks Architecture
Datalake در مقابل Datawarehouse Datalake vs Datawarehouse
نقش اسپارک در اکوسیستم کلان داده Role of Spark in Big Data Ecosystem
مروری بر Spark API ها Overview of Spark APIs
چه چیزی در Spark3 جدید است؟ Whats new in Spark3 ?
آیا باید Spark را در سال 2023 یاد بگیرم؟ Should i be learning Spark in 2023?

شروع به کار با Spark DataFrame API Getting started with Spark DataFrame API

بخش مقدمه Section Introduction
آزمایشگاه - یک خوشه Dataproc ایجاد کنید Lab - Create a Dataproc Cluster
آزمایشگاه - مروری بر نوت بوک Jupyter و اجزای مختلف Lab - Walkthrough of Jupyter Notebook and different components
Lab- Basic Dataframe Operations در PySpark Lab- Basic Dataframe Operations in PySpark
آزمایشگاه - تایپ کست و استخراج ستون مهر زمان Lab - Typecasting & timestamp column extraction
آزمایشگاه ها - تجمعات چارچوب داده Labs - Dataframe Aggregations
انتساب بر روی Dataframe Aggregations Assignment on Dataframe Aggregations
تحولات و اقدامات در اسپارک Transformations and Actions in Spark
آزمایشگاه - تبدیل های پیشرفته با استفاده از توابع پنجره Lab - Advanced transformations using Window Functions
آزمایشگاه - عملیات پنجره نورد Lab - Rolling Window Operations
آزمایشگاه - داده های تبدیل شده را به یک سینک بازنویسی کنید: سطل GCS و BigQuery Lab - Write transformed data back to a sink : GCS Bucket and BigQuery
آزمایشگاه - از Spark-Submit برای ارسال مشاغل به کلاسترهای dataproc استفاده کنید Lab - Use Spark-Submit to submit jobs to dataproc clusters

شروع کار با SparkSql در Spark3 Getting started with SparkSql in Spark3

مقدمه ای بر SparkSql Introduction to SparkSql
انواع مختلف میز در اسپارک Different Types of Tables in Spark
آزمایشگاه - ایجاد جداول برای SparkSql Lab - Create Tables for SparkSql
آزمایشگاه - عملکردهای پنجره تحلیلی و ایجاد جداول دائمی Lab - Analytical Window Functions and creating permanent tables
آزمایشگاه - انجام Join در Dataframe Lab - Perform Joins on Dataframes
پارتیشن ها در Spark Dataframes چیست؟ What are Partitions in Spark Dataframes?
آزمایشگاه - پارتیشن بندی مجدد دیتافریم ها را انجام دهید Lab - Perform repartitioning of dataframes
مخلوط کردن داده ها در Joins Data Shuffling in Joins
آزمایشگاه - توابع تعریف شده توسط کاربر در Spark Lab - User defined functions in Spark

مفاهیم جرقه - مقیاس خودکار، بهینه سازی و هشدار Spark Concepts - Autoscaling , Optimization and Alerting

بهینه ساز کاتالیزور در جرقه چیست؟ What is a catalyst optimizer in spark ?
Cache و Persist در Spark Cache and Persist in Spark
Autoscaling در اسپارک و دیتاپروک چیست؟ What is Autoscaling in spark and dataproc?
آزمایشگاه - سیاست های مقیاس بندی خودکار را در خوشه های Dataproc اعمال کنید Lab - Apply Autoscaling Policies to Dataproc Clusters
مقدمه ای بر Dataproc Workflows Introduction to Dataproc Workflows
آزمایشگاه - گردش کار GCP را اجرا کنید Lab - Execute GCP Workflows
آزمایشگاه - Cloud Scheduler برای خودکارسازی گردش کار Lab - Cloud Scheduler to automate Workflow Execution
چک پوینت در اسپارک چیست؟ What is Checkpointing in Spark?
Broadcast Join چیست؟ What are Broadcast Joins?
آزمایشگاه - راه اندازی سیاست های هشدار برای Spark Jobs Lab - Setup Alerting Policies for Spark Jobs

پروژه - خط لوله پردازش دسته ای End to End با استفاده از Spark Project - End to End Batch processing pipeline using Spark

معرفی پروژه Project Introduction
آزمایشگاه - نمونه MySql و پایگاه داده را بر روی GCP تنظیم کنید Lab - Setup MySql Instance and Database on GCP
آزمایشگاه - داده ها را در MySql وارد کنید Lab - Ingest Data into MySql
آزمایشگاه - راه اندازی Dataproc با اقدامات اولیه Lab - Setup Dataproc with initialization actions
Assignment Lab - راه اندازی اتصال از PySpark به MySql Db Assignment Lab - Setup Connectivity from PySpark to MySql Db
Assignment Lab - تبدیل ها را با استفاده از PySpark انجام دهید Assignment Lab - Perform transformations using PySpark
آزمایشگاه - گردش کار را برای اجرای خط لوله انتها به انتها تنظیم کنید Lab - Setup Workflows to execute end-to-end pipeline

تجزیه و تحلیل زمان واقعی با جریان ساختار یافته Spark Real Time Analytics With Spark Structured Streaming

بخش مقدمه Section Introduction
مروری بر PusSub Lite Overview of PusSub Lite
Windows Tumbling چیست؟ What are Tumbling Windows ?
واترمارکینگ چیست؟ What is Watermarking?
ویندوز کشویی چیست؟ What are Sliding Windows?
آزمایشگاه - رزرو PubSub Lite ایجاد کنید Lab - Create PubSub Lite Reservation
آزمایشگاه - انتشار داده ها در PubSub و تست با استفاده از PySpark Lab - Publish Data to PubSub and Testing using PySpark
آزمایشگاه - اجرای Tumbling Windows Lab - Implement Tumbling Windows
آزمایشگاه -اجرای پنجره غلتشی با واترمارکینگ Lab -Implement Tumbling Window with Watermarking
آزمایشگاه- اجرای پنجره های کشویی Lab- Implement Sliding Windows

در جریان داده می پیوندد Joins on Streaming Data

مروری بر پیوستن به Dataframe جریانی Overview of Joining Streaming Dataframe
آزمایشگاه -به Streaming Dataframe با Static Dataframe بپیوندید Lab -Join Streaming Dataframe with Static Dataframe
آزمایشگاه - به 2 قالب داده جریانی بپیوندید Lab - Join 2 Streaming Dataframes
آزمایشگاه - از Watermarking در اتصالات جریانی استفاده کنید Lab - Use Watermarking in Streaming Joins

پروژه فیلترینگ مشارکتی بلادرنگ Real Time Collaborative Filtering Project

مروری بر Use Case Overview of the Use Case
آزمایشگاه - آموزش مدل با استفاده از ML Library و Code Walkthrough Lab - Model Training using ML Library and Code Walkthrough
آزمایشگاه - مرور کد و انتشار داده ها Lab - Code Walkthrough and Publish Data
آزمایشگاه - مدل پیشنهادی محصول در زمان واقعی در عمل Lab - Real Time Product Recommendation Model in Action

برای سوالات مصاحبه در اسپارک آماده شوید Prep Up for the Interview Questions on Spark

مقدمه و نکات Introduction and Tips
سوالات مصاحبه پردازش دسته ای داده - قسمت 1 Batch Data Processing Interview Questions - Part 1
سوالات مصاحبه پردازش دسته ای داده - قسمت 2 Batch Data Processing Interview Questions - Part 2
سوالات مصاحبه پردازش دسته ای - قسمت 3 Batch Processing Interview Questions - Part 3
سوالات مصاحبه پردازش داده ها در زمان واقعی - قسمت 1 Real Time Data Processing Interview Questions - Part 1
سوالات مصاحبه پردازش داده ها در زمان واقعی - قسمت 2 Real Time Data Processing Interview Questions - Part 2

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش Spark 3 در Google Cloud Platform-سطح مبتدی تا پیشرفته

جزییات دوره

زمان دوره: 5.5 hours

تعداد ویدیو ها: 72

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 102

امتیاز مرجع: 4.9 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: No Latency

لینک کوتاه این دوره

https://donyad.com/d/097a72

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

دنیاد

آموزش Spark 3 در Google Cloud Platform-سطح مبتدی تا پیشرفته

Spark 3 on Google Cloud Platform-Beginner to Advanced Level hot and new

معرفی Introduction

معرفی و بررسی اجمالی دوره Course Introduction and Overview

مخزن GitHub برای دوره GitHub repository for the course

یک حساب آزمایشی GCP راه اندازی کنید Setup a Trial GCP Account

Gcloud SDK را نصب و راه اندازی کنید Install and Setup the Gcloud SDK

شروع کار با Spark Fundamentals Getting Started with Spark Fundamentals

مقدمه ای بر Dataproc در GCP Introduction to Dataproc on GCP

مروری بر معماری Sparks Overview of Sparks Architecture

Datalake در مقابل Datawarehouse Datalake vs Datawarehouse

نقش اسپارک در اکوسیستم کلان داده Role of Spark in Big Data Ecosystem

مروری بر Spark API ها Overview of Spark APIs

چه چیزی در Spark3 جدید است؟ Whats new in Spark3 ?

آیا باید Spark را در سال 2023 یاد بگیرم؟ Should i be learning Spark in 2023?

شروع به کار با Spark DataFrame API Getting started with Spark DataFrame API

بخش مقدمه Section Introduction

آزمایشگاه - یک خوشه Dataproc ایجاد کنید Lab - Create a Dataproc Cluster

آزمایشگاه - مروری بر نوت بوک Jupyter و اجزای مختلف Lab - Walkthrough of Jupyter Notebook and different components

Lab- Basic Dataframe Operations در PySpark Lab- Basic Dataframe Operations in PySpark

آزمایشگاه - تایپ کست و استخراج ستون مهر زمان Lab - Typecasting & timestamp column extraction

آزمایشگاه ها - تجمعات چارچوب داده Labs - Dataframe Aggregations

انتساب بر روی Dataframe Aggregations Assignment on Dataframe Aggregations

تحولات و اقدامات در اسپارک Transformations and Actions in Spark

آزمایشگاه - تبدیل های پیشرفته با استفاده از توابع پنجره Lab - Advanced transformations using Window Functions

آزمایشگاه - عملیات پنجره نورد Lab - Rolling Window Operations

آزمایشگاه - داده های تبدیل شده را به یک سینک بازنویسی کنید: سطل GCS و BigQuery Lab - Write transformed data back to a sink : GCS Bucket and BigQuery

آزمایشگاه - از Spark-Submit برای ارسال مشاغل به کلاسترهای dataproc استفاده کنید Lab - Use Spark-Submit to submit jobs to dataproc clusters

شروع کار با SparkSql در Spark3 Getting started with SparkSql in Spark3

مقدمه ای بر SparkSql Introduction to SparkSql

انواع مختلف میز در اسپارک Different Types of Tables in Spark

آزمایشگاه - ایجاد جداول برای SparkSql Lab - Create Tables for SparkSql

آزمایشگاه - عملکردهای پنجره تحلیلی و ایجاد جداول دائمی Lab - Analytical Window Functions and creating permanent tables

آزمایشگاه - انجام Join در Dataframe Lab - Perform Joins on Dataframes

پارتیشن ها در Spark Dataframes چیست؟ What are Partitions in Spark Dataframes?

آزمایشگاه - پارتیشن بندی مجدد دیتافریم ها را انجام دهید Lab - Perform repartitioning of dataframes

مخلوط کردن داده ها در Joins Data Shuffling in Joins

آزمایشگاه - توابع تعریف شده توسط کاربر در Spark Lab - User defined functions in Spark

مفاهیم جرقه - مقیاس خودکار، بهینه سازی و هشدار Spark Concepts - Autoscaling , Optimization and Alerting

بهینه ساز کاتالیزور در جرقه چیست؟ What is a catalyst optimizer in spark ?

Cache و Persist در Spark Cache and Persist in Spark

Autoscaling در اسپارک و دیتاپروک چیست؟ What is Autoscaling in spark and dataproc?

آزمایشگاه - سیاست های مقیاس بندی خودکار را در خوشه های Dataproc اعمال کنید Lab - Apply Autoscaling Policies to Dataproc Clusters

مقدمه ای بر Dataproc Workflows Introduction to Dataproc Workflows

آزمایشگاه - گردش کار GCP را اجرا کنید Lab - Execute GCP Workflows

آزمایشگاه - Cloud Scheduler برای خودکارسازی گردش کار Lab - Cloud Scheduler to automate Workflow Execution

چک پوینت در اسپارک چیست؟ What is Checkpointing in Spark?

Broadcast Join چیست؟ What are Broadcast Joins?

آزمایشگاه - راه اندازی سیاست های هشدار برای Spark Jobs Lab - Setup Alerting Policies for Spark Jobs

پروژه - خط لوله پردازش دسته ای End to End با استفاده از Spark Project - End to End Batch processing pipeline using Spark

معرفی پروژه Project Introduction

آزمایشگاه - نمونه MySql و پایگاه داده را بر روی GCP تنظیم کنید Lab - Setup MySql Instance and Database on GCP

آزمایشگاه - داده ها را در MySql وارد کنید Lab - Ingest Data into MySql

آزمایشگاه - راه اندازی Dataproc با اقدامات اولیه Lab - Setup Dataproc with initialization actions

Assignment Lab - راه اندازی اتصال از PySpark به MySql Db Assignment Lab - Setup Connectivity from PySpark to MySql Db

Assignment Lab - تبدیل ها را با استفاده از PySpark انجام دهید Assignment Lab - Perform transformations using PySpark

آزمایشگاه - گردش کار را برای اجرای خط لوله انتها به انتها تنظیم کنید Lab - Setup Workflows to execute end-to-end pipeline

تجزیه و تحلیل زمان واقعی با جریان ساختار یافته Spark Real Time Analytics With Spark Structured Streaming

بخش مقدمه Section Introduction

مروری بر PusSub Lite Overview of PusSub Lite

Windows Tumbling چیست؟ What are Tumbling Windows ?

واترمارکینگ چیست؟ What is Watermarking?

ویندوز کشویی چیست؟ What are Sliding Windows?

آزمایشگاه - رزرو PubSub Lite ایجاد کنید Lab - Create PubSub Lite Reservation

آزمایشگاه - انتشار داده ها در PubSub و تست با استفاده از PySpark Lab - Publish Data to PubSub and Testing using PySpark

آزمایشگاه - اجرای Tumbling Windows Lab - Implement Tumbling Windows

آزمایشگاه -اجرای پنجره غلتشی با واترمارکینگ Lab -Implement Tumbling Window with Watermarking

آزمایشگاه- اجرای پنجره های کشویی Lab- Implement Sliding Windows

در جریان داده می پیوندد Joins on Streaming Data

مروری بر پیوستن به Dataframe جریانی Overview of Joining Streaming Dataframe

آزمایشگاه -به Streaming Dataframe با Static Dataframe بپیوندید Lab -Join Streaming Dataframe with Static Dataframe

آزمایشگاه - به 2 قالب داده جریانی بپیوندید Lab - Join 2 Streaming Dataframes

آزمایشگاه - از Watermarking در اتصالات جریانی استفاده کنید Lab - Use Watermarking in Streaming Joins

پروژه فیلترینگ مشارکتی بلادرنگ Real Time Collaborative Filtering Project

مروری بر Use Case Overview of the Use Case

آزمایشگاه - آموزش مدل با استفاده از ML Library و Code Walkthrough Lab - Model Training using ML Library and Code Walkthrough

آزمایشگاه - مرور کد و انتشار داده ها Lab - Code Walkthrough and Publish Data

آزمایشگاه - مدل پیشنهادی محصول در زمان واقعی در عمل Lab - Real Time Product Recommendation Model in Action

برای سوالات مصاحبه در اسپارک آماده شوید Prep Up for the Interview Questions on Spark

مقدمه و نکات Introduction and Tips