آموزش Apache Spark برای توسعه دهندگان جاوا - آخرین آپدیت

Apache Spark for Java Developers

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: پردازش Big Data را با استفاده از RDD، DataFrames، SparkSQL و Machine Learning دریافت کنید - و در زمان واقعی با کافکا پخش کنید! استفاده از جاوا با سبک عملکردی برای تعریف کارهای پردازش داده پیچیده تفاوت‌های بین APIهای RDD و DataFrame را بیاموزید از یک دستور SQL برای تولید گزارش‌ها در برابر مجموعه‌های داده بزرگ استفاده کنید از الگوریتم‌های یادگیری ماشین با داده‌های بزرگ و SparkML برای پردازش جریان‌های Big به Apache Kafka متصل کنید. داده ها ببینید چگونه می توان از جریان ساختاری برای ساخت خطوط لوله با کافکا استفاده کرد. پیش نیازها: جاوا 8 برای دوره مورد نیاز است. Spark در حال حاضر از Java9+ پشتیبانی نمی کند، و برای دستور کارکردی Lambda به جاوا 8 نیاز دارید. دانش قبلی از جاوا فرض می شود، اما هر چیزی بالاتر از اصول اولیه توضیح داده شده است برخی از SQL های قبلی برای بخشی از دوره مفید خواهند بود، اما اگر هرگز از آن استفاده نکرده اید. قبل از این اولین تجربه خوبی خواهد بود

با چارچوب محاسباتی موازی شگفت انگیز Apache Spark شروع کنید - این دوره به ویژه برای توسعه دهندگان جاوا طراحی شده است.

اگر در علم داده تازه کار هستید و می خواهید بدانید که چگونه مجموعه داده های عظیم به صورت موازی پردازش می شوند، Java API برای spark یک راه عالی برای شروع سریع است.

همه اصولی که برای درک عملیات اصلی که می‌توانید در Spark Core، SparkSQL و DataFrames انجام دهید به آن نیاز دارید، با مثال‌هایی که به راحتی قابل دنبال کردن هستند، به تفصیل پوشش داده شده‌اند. می‌توانید تمام مثال‌ها را دنبال کنید و آنها را روی رایانه توسعه محلی خودتان اجرا کنید.

همراه با این دوره، ماژولی است که SparkML را پوشش می‌دهد، افزودنی هیجان‌انگیز به Spark که به شما امکان می‌دهد مدل‌های یادگیری ماشینی را در داده‌های بزرگ خود اعمال کنید! هیچ تجربه ریاضی لازم نیست!

و در نهایت، یک ماژول کامل 3 ساعته وجود دارد که Spark Streaming را پوشش می‌دهد، که در آن تجربه عملی از ادغام Spark با آپاچی کافکا برای مدیریت جریان‌های کلان داده در زمان واقعی را خواهید داشت. ما از هر دو DStream و Structured Streaming API استفاده می کنیم.

به صورت اختیاری، اگر یک حساب AWS دارید، خواهید دید که چگونه کار خود را در یک خوشه سخت افزاری زنده EMR (Elastic Map Reduce) مستقر کنید. اگر با AWS آشنایی ندارید، می‌توانید این ویدیو را نادیده بگیرید، اما همچنان ارزش تماشای آن را به جای دنبال کردن برنامه‌نویسی دارد.

شما عمیقاً به درونیات Spark خواهید رفت و خواهید فهمید که چگونه برنامه های اجرایی شما را بهینه می کند. ما عملکرد RDD ها را با SparkSQL مقایسه خواهیم کرد و شما در مورد مشکلات اصلی عملکرد که می تواند در هزینه های زیادی برای پروژه های زنده صرفه جویی کند، یاد خواهید گرفت.

در طول دوره، تمرینات بسیار خوبی را با جاوا لامبداس خواهید داشت - اگر تازه کار هستید، یک راه عالی برای یادگیری جاوا به سبک عملکردی.

سرفصل ها و درس ها

معرفی Introduction

خوش آمدی Welcome
دانلود کد Downloading the Code
ماژول 1 - مقدمه Module 1 - Introduction
Spark Architecture و RDDs Spark Architecture and RDDs

معرفی Introduction

خوش آمدی Welcome
دانلود کد Downloading the Code
ماژول 1 - مقدمه Module 1 - Introduction
Spark Architecture و RDDs Spark Architecture and RDDs

شروع شدن Getting Started

هشدار - جاوا 9+ توسط Spark 2 پشتیبانی نمی شود. می توانید به صورت اختیاری از Spark 3 استفاده کنید. Warning - Java 9+ is not supported by Spark 2. You can optionally use Spark 3.
نصب اسپارک Installing Spark

شروع شدن Getting Started

هشدار - جاوا 9+ توسط Spark 2 پشتیبانی نمی شود. می توانید به صورت اختیاری از Spark 3 استفاده کنید. Warning - Java 9+ is not supported by Spark 2. You can optionally use Spark 3.
نصب اسپارک Installing Spark

RDD ها را کاهش می دهد Reduces on RDDs

RDD ها را کاهش می دهد Reduces on RDDs

RDD ها را کاهش می دهد Reduces on RDDs

RDD ها را کاهش می دهد Reduces on RDDs

نقشه برداری و خروجی Mapping and Outputting

عملیات نقشه برداری Mapping Operations
خروجی نتایج به کنسول Outputting Results to the Console
شمارش اقلام کلان داده Counting Big Data Items
اگر یک "NotSerializableException" در Spark داشته اید If you've had a "NotSerializableException" in Spark

نقشه برداری و خروجی Mapping and Outputting

عملیات نقشه برداری Mapping Operations
خروجی نتایج به کنسول Outputting Results to the Console
شمارش اقلام کلان داده Counting Big Data Items
اگر یک "NotSerializableException" در Spark داشته اید If you've had a "NotSerializableException" in Spark

تاپل ها Tuples

RDD های اشیاء RDDs of Objects
تاپل ها و RDD ها Tuples and RDDs

تاپل ها Tuples

RDD های اشیاء RDDs of Objects
تاپل ها و RDD ها Tuples and RDDs

PairRDDs PairRDDs

مروری بر PairRDD ها Overview of PairRDDs
ساخت PairRDD Building a PairRDD
کدنویسی ReduceByKey Coding a ReduceByKey
با استفاده از Fluent API Using the Fluent API
گروه بندی بر اساس کلید Grouping By Key

PairRDDs PairRDDs

مروری بر PairRDD ها Overview of PairRDDs
ساخت PairRDD Building a PairRDD
کدنویسی ReduceByKey Coding a ReduceByKey
با استفاده از Fluent API Using the Fluent API
گروه بندی بر اساس کلید Grouping By Key

FlatMaps و فیلترها FlatMaps and Filters

FlatMaps FlatMaps
فیلترها Filters

FlatMaps و فیلترها FlatMaps and Filters

FlatMaps FlatMaps
فیلترها Filters

خواندن از دیسک Reading from Disk

خواندن از دیسک Reading from Disk

خواندن از دیسک Reading from Disk

خواندن از دیسک Reading from Disk

رتبه بندی کلمات کلیدی عملی است Keyword Ranking Practical

الزامات عملی Practical Requirements
راه حل کار کرد Worked Solution
راه حل کار شده (ادامه) با مرتب سازی Worked Solution (continued) with Sorting

رتبه بندی کلمات کلیدی عملی است Keyword Ranking Practical

الزامات عملی Practical Requirements
راه حل کار کرد Worked Solution
راه حل کار شده (ادامه) با مرتب سازی Worked Solution (continued) with Sorting

مرتب سازی و ادغام Sorts and Coalesce

چرا مرتب سازی ها با foreach در Spark کار نمی کنند؟ Why do sorts not work with foreach in Spark?
چرا Coalesce راه حل اشتباهی است Why Coalesce is the Wrong Solution
از Coalesce در Spark چه استفاده می شود؟ What is Coalesce used for in Spark?

مرتب سازی و ادغام Sorts and Coalesce

چرا مرتب سازی ها با foreach در Spark کار نمی کنند؟ Why do sorts not work with foreach in Spark?
چرا Coalesce راه حل اشتباهی است Why Coalesce is the Wrong Solution
از Coalesce در Spark چه استفاده می شود؟ What is Coalesce used for in Spark?

استقرار در AWS EMR (اختیاری) Deploying to AWS EMR (Optional)

چگونه یک خوشه اسپارک EMR را راه اندازی کنیم How to start an EMR Spark Cluster
بسته بندی یک شیشه جرقه برای EMR Packing a Spark Jar for EMR
اجرای Spark Job در EMR Running a Spark Job on EMR
درک خروجی پیشرفت شغلی Understanding the Job Progress Output
محاسبه هزینه های EMR و خاتمه خوشه Calculating EMR costs and Terminating the cluster

استقرار در AWS EMR (اختیاری) Deploying to AWS EMR (Optional)

چگونه یک خوشه اسپارک EMR را راه اندازی کنیم How to start an EMR Spark Cluster
بسته بندی یک شیشه جرقه برای EMR Packing a Spark Jar for EMR
اجرای Spark Job در EMR Running a Spark Job on EMR
درک خروجی پیشرفت شغلی Understanding the Job Progress Output
محاسبه هزینه های EMR و خاتمه خوشه Calculating EMR costs and Terminating the cluster

می پیوندد Joins

اتصالات داخلی Inner Joins
اتصالات بیرونی چپ و اختیاری Left Outer Joins and Optionals
اتصالات بیرونی سمت راست Right Outer Joins
پیوستن کامل و دکارتی Full Joins and Cartesians

می پیوندد Joins

اتصالات داخلی Inner Joins
اتصالات بیرونی چپ و اختیاری Left Outer Joins and Optionals
اتصالات بیرونی سمت راست Right Outer Joins
پیوستن کامل و دکارتی Full Joins and Cartesians

تمرین بزرگ داده های بزرگ Big Data Big Exercise

معرفی الزامات Introducing the Requirements
دست گرمی بازی کردن Warmup
الزامات تمرین اصلی Main Exercise Requirments
راهنما - مرحله 2 Walkthrough - Step 2
راهنما - مرحله 3 Walkthrough - Step 3
راهنما - مرحله 4 Walkthrough - Step 4
راهنما - مرحله 5 Walkthrough - Step 5
راهنما - مرحله 6 Walkthrough - Step 6
راهنما - مرحله 7 Walkthrough - Step 7
راهنما - مرحله 8 Walkthrough - Step 8
راهنما - مرحله 9، اضافه کردن عناوین و استفاده از فایل Big Data Walkthrough - Step 9, adding titles and using the Big Data file

تمرین بزرگ داده های بزرگ Big Data Big Exercise

معرفی الزامات Introducing the Requirements
دست گرمی بازی کردن Warmup
الزامات تمرین اصلی Main Exercise Requirments
راهنما - مرحله 2 Walkthrough - Step 2
راهنما - مرحله 3 Walkthrough - Step 3
راهنما - مرحله 4 Walkthrough - Step 4
راهنما - مرحله 5 Walkthrough - Step 5
راهنما - مرحله 6 Walkthrough - Step 6
راهنما - مرحله 7 Walkthrough - Step 7
راهنما - مرحله 8 Walkthrough - Step 8
راهنما - مرحله 9، اضافه کردن عناوین و استفاده از فایل Big Data Walkthrough - Step 9, adding titles and using the Big Data file

عملکرد RDD RDD Performance

تحولات و اقدامات Transformations and Actions
DAG و SparkUI The DAG and SparkUI
تحولات باریک در مقابل گسترده Narrow vs Wide Transformations
مخلوط کردن Shuffles
برخورد با انحرافات کلیدی Dealing with Key Skews
اجتناب از groupByKey و استفاده از map-side-reduces به جای آن Avoiding groupByKey and using map-side-reduces instead
ذخیره سازی و ماندگاری Caching and Persistence

عملکرد RDD RDD Performance

تحولات و اقدامات Transformations and Actions
DAG و SparkUI The DAG and SparkUI
تحولات باریک در مقابل گسترده Narrow vs Wide Transformations
مخلوط کردن Shuffles
برخورد با انحرافات کلیدی Dealing with Key Skews
اجتناب از groupByKey و استفاده از map-side-reduces به جای آن Avoiding groupByKey and using map-side-reduces instead
ذخیره سازی و ماندگاری Caching and Persistence

ماژول 2 - فصل 1 مقدمه SparkSQL Module 2 - Chapter 1 SparkSQL Introduction

کد برای بخش SQL/DataFrames Code for SQL/DataFrames Section
معرفی SparkSQL Introducing SparkSQL

ماژول 2 - فصل 1 مقدمه SparkSQL Module 2 - Chapter 1 SparkSQL Introduction

کد برای بخش SQL/DataFrames Code for SQL/DataFrames Section
معرفی SparkSQL Introducing SparkSQL

SparkSQL شروع به کار SparkSQL Getting Started

SparkSQL شروع به کار SparkSQL Getting Started

SparkSQL شروع به کار SparkSQL Getting Started

SparkSQL شروع به کار SparkSQL Getting Started

مجموعه داده ها Datasets

مبانی مجموعه داده Dataset Basics
فیلترها با استفاده از عبارات Filters using Expressions
فیلترها با استفاده از Lambdas Filters using Lambdas
فیلترها با استفاده از ستون ها Filters using Columns

مجموعه داده ها Datasets

مبانی مجموعه داده Dataset Basics
فیلترها با استفاده از عبارات Filters using Expressions
فیلترها با استفاده از Lambdas Filters using Lambdas
فیلترها با استفاده از ستون ها Filters using Columns

نحو کامل SQL The Full SQL Syntax

استفاده از Spark Temporary View برای SQL Using a Spark Temporary View for SQL

نحو کامل SQL The Full SQL Syntax

استفاده از Spark Temporary View برای SQL Using a Spark Temporary View for SQL

در داده های حافظه In Memory Data

در داده های حافظه In Memory Data

در داده های حافظه In Memory Data

در داده های حافظه In Memory Data

گروه بندی و تجمیع Groupings and Aggregations

گروه بندی و تجمیع Groupings and Aggregations

گروه بندی و تجمیع Groupings and Aggregations

گروه بندی و تجمیع Groupings and Aggregations

قالب بندی تاریخ Date Formatting

قالب بندی تاریخ Date Formatting

قالب بندی تاریخ Date Formatting

قالب بندی تاریخ Date Formatting

گروه بندی های متعدد Multiple Groupings

گروه بندی های متعدد Multiple Groupings

گروه بندی های متعدد Multiple Groupings

گروه بندی های متعدد Multiple Groupings

مرتب سازی Ordering

مرتب سازی Ordering

مرتب سازی Ordering

مرتب سازی Ordering

DataFrames API DataFrames API

SQL در مقابل DataFrames SQL vs DataFrames
گروه بندی DataFrame DataFrame Grouping

DataFrames API DataFrames API

SQL در مقابل DataFrames SQL vs DataFrames
گروه بندی DataFrame DataFrame Grouping

جداول محوری Pivot Tables

یک Pivot Table چگونه کار می کند؟ How does a Pivot Table work?
کدگذاری یک جدول محوری در Spark Coding a Pivot Table in Spark

جداول محوری Pivot Tables

یک Pivot Table چگونه کار می کند؟ How does a Pivot Table work?
کدگذاری یک جدول محوری در Spark Coding a Pivot Table in Spark

تجمعات بیشتر More Aggregations

نحوه استفاده از متد agg در اسپارک How to use the agg method in Spark

تجمعات بیشتر More Aggregations

نحوه استفاده از متد agg در اسپارک How to use the agg method in Spark

تمرین عملی Practical Exercise

ساخت یک جدول محوری با چند تجمع Building a Pivot Table with Multiple Aggregations

تمرین عملی Practical Exercise

ساخت یک جدول محوری با چند تجمع Building a Pivot Table with Multiple Aggregations

توابع تعریف شده توسط کاربر User Defined Functions

نحوه استفاده از لامبدا برای نوشتن UDF در Spark How to use a Lambda to write a UDF in Spark
استفاده از بیش از یک پارامتر ورودی در Spark UDF Using more than one input parameter in Spark UDF
استفاده از UDF در Spark SQL Using a UDF in Spark SQL

توابع تعریف شده توسط کاربر User Defined Functions

نحوه استفاده از لامبدا برای نوشتن UDF در Spark How to use a Lambda to write a UDF in Spark
استفاده از بیش از یک پارامتر ورودی در Spark UDF Using more than one input parameter in Spark UDF
استفاده از UDF در Spark SQL Using a UDF in Spark SQL

عملکرد SparkSQL SparkSQL Performance

SparkUI برای SparkSQL را درک کنید Understand the SparkUI for SparkSQL
عملکرد SQL و DataFrame چگونه مقایسه می شود؟ How does SQL and DataFrame performance compare?
به روز رسانی - تنظیم spark.sql.shuffle.partitions Update - Setting spark.sql.shuffle.partitions

عملکرد SparkSQL SparkSQL Performance

SparkUI برای SparkSQL را درک کنید Understand the SparkUI for SparkSQL
عملکرد SQL و DataFrame چگونه مقایسه می شود؟ How does SQL and DataFrame performance compare?
به روز رسانی - تنظیم spark.sql.shuffle.partitions Update - Setting spark.sql.shuffle.partitions

HashAggregation HashAggregation

تشریح برنامه های اجرایی Explaining Execution Plans
HashAggregation چگونه کار می کند؟ How does HashAggregation work?
چگونه می توانم Spark را مجبور به استفاده از HashAggregation کنم؟ How can I force Spark to use HashAggregation?
نتایج عملکرد SQL در مقابل DataFrames SQL vs DataFrames Performance Results

HashAggregation HashAggregation

تشریح برنامه های اجرایی Explaining Execution Plans
HashAggregation چگونه کار می کند؟ How does HashAggregation work?
چگونه می توانم Spark را مجبور به استفاده از HashAggregation کنم؟ How can I force Spark to use HashAggregation?
نتایج عملکرد SQL در مقابل DataFrames SQL vs DataFrames Performance Results

عملکرد SparkSQL در مقابل RDDs SparkSQL Performance vs RDDs

عملکرد SparkSQL در مقابل RDDs SparkSQL Performance vs RDDs

عملکرد SparkSQL در مقابل RDDs SparkSQL Performance vs RDDs

عملکرد SparkSQL در مقابل RDDs SparkSQL Performance vs RDDs

ماژول 3 - SparkML برای یادگیری ماشین Module 3 - SparkML for Machine Learning

به ماژول 3 خوش آمدید Welcome to Module 3
یادگیری ماشینی چیست؟ What is Machine Learning?
در این ماژول - و معرفی Kaggle Coming up in this Module - and introducing Kaggle
یادگیری تحت نظارت در مقابل یادگیری بدون نظارت Supervised vs Unsupervised Learning
فرآیند ساخت مدل The Model Building Process

ماژول 3 - SparkML برای یادگیری ماشین Module 3 - SparkML for Machine Learning

به ماژول 3 خوش آمدید Welcome to Module 3
یادگیری ماشینی چیست؟ What is Machine Learning?
در این ماژول - و معرفی Kaggle Coming up in this Module - and introducing Kaggle
یادگیری تحت نظارت در مقابل یادگیری بدون نظارت Supervised vs Unsupervised Learning
فرآیند ساخت مدل The Model Building Process

مدل های رگرسیون خطی Linear Regression Models

معرفی رگرسیون خطی Introducing Linear Regression
شروع کدگذاری رگرسیون های خطی Beginning Coding Linear Regressions
جمع آوری وکتور ویژگی ها Assembling a Vector of Features
اتصالات مدل Model Fitting

مدل های رگرسیون خطی Linear Regression Models

معرفی رگرسیون خطی Introducing Linear Regression
شروع کدگذاری رگرسیون های خطی Beginning Coding Linear Regressions
جمع آوری وکتور ویژگی ها Assembling a Vector of Features
اتصالات مدل Model Fitting

داده های آموزشی Training Data

آموزش در مقابل داده های آزمون و هولدآوت Training vs Test and Holdout Data
استفاده از داده های Kaggle Using data from Kaggle
بررسی عملی Practical Walkthrough
تقسیم داده های آموزشی با تقسیم های تصادفی Splitting Training Data with Random Splits
ارزیابی دقت مدل با R2 و RMSE Assessing Model Accuracy with R2 and RMSE

داده های آموزشی Training Data

آموزش در مقابل داده های آزمون و هولدآوت Training vs Test and Holdout Data
استفاده از داده های Kaggle Using data from Kaggle
بررسی عملی Practical Walkthrough
تقسیم داده های آموزشی با تقسیم های تصادفی Splitting Training Data with Random Splits
ارزیابی دقت مدل با R2 و RMSE Assessing Model Accuracy with R2 and RMSE

پارامترهای برازش مدل Model Fitting Parameters

تنظیم پارامترهای رگرسیون خطی Setting Linear Regression Parameters
داده های آموزش، آزمون و هولدآوت Training, Test and Holdout Data

پارامترهای برازش مدل Model Fitting Parameters

تنظیم پارامترهای رگرسیون خطی Setting Linear Regression Parameters
داده های آموزش، آزمون و هولدآوت Training, Test and Holdout Data

انتخاب ویژگی Feature Selection

تشریح ویژگی ها Describing the Features
همبستگی ویژگی ها Correlation of Fetures
شناسایی و حذف ویژگی های تکراری Identifying and Eliminating Duplicated Features
آماده سازی داده ها Data Preparation

انتخاب ویژگی Feature Selection

تشریح ویژگی ها Describing the Features
همبستگی ویژگی ها Correlation of Fetures
شناسایی و حذف ویژگی های تکراری Identifying and Eliminating Duplicated Features
آماده سازی داده ها Data Preparation

داده های غیر عددی Non-Numeric Data

با استفاده از OneHotEncoding Using OneHotEncoding
درک بردارها Understanding Vectors

داده های غیر عددی Non-Numeric Data

با استفاده از OneHotEncoding Using OneHotEncoding
درک بردارها Understanding Vectors

خطوط لوله Pipelines

خطوط لوله Pipelines

خطوط لوله Pipelines

خطوط لوله Pipelines

مطالعه موردی Case Study

الزامات Requirements
مطالعه موردی - بخش اول Case Study - Walkthrough Part 1
مطالعه موردی - بخش دوم Case Study - Walkthrough Part 2

مطالعه موردی Case Study

الزامات Requirements
مطالعه موردی - بخش اول Case Study - Walkthrough Part 1
مطالعه موردی - بخش دوم Case Study - Walkthrough Part 2

رگرسیون لجستیک Logistic Regression

کد فصل 9-12 Code for chapters 9-12
درست/کاذب منفی و مثبت True/False Negatives and Postives
کدگذاری رگرسیون لجستیک Coding a Logistic Regression

رگرسیون لجستیک Logistic Regression

کد فصل 9-12 Code for chapters 9-12
درست/کاذب منفی و مثبت True/False Negatives and Postives
کدگذاری رگرسیون لجستیک Coding a Logistic Regression

درختان تصمیم Decision Trees

مروری بر درختان تصمیم Overview of Decision Trees
ساخت مدل Building the Model
تفسیر درخت تصمیم Interpreting a Decision Tree
جنگل های تصادفی Random Forests

درختان تصمیم Decision Trees

مروری بر درختان تصمیم Overview of Decision Trees
ساخت مدل Building the Model
تفسیر درخت تصمیم Interpreting a Decision Tree
جنگل های تصادفی Random Forests

K به معنای خوشه بندی است K Means Clustering

K به معنای خوشه بندی است K Means Clustering

K به معنای خوشه بندی است K Means Clustering

K به معنای خوشه بندی است K Means Clustering

سیستم توصیهگر Recommender Systems

بررسی اجمالی و فاکتورسازی ماتریسی Overview and Matrix Factorisation
ساخت مدل Building the Model

سیستم توصیهگر Recommender Systems

بررسی اجمالی و فاکتورسازی ماتریسی Overview and Matrix Factorisation
ساخت مدل Building the Model

ماژول 4 - جریان جرقه و جریان ساخت یافته با کافکا Module 4 -Spark Streaming and Structured Streaming with Kafka

به ماژول 4 - Spark Streaming خوش آمدید Welcome to Module 4 - Spark Streaming
استریم فصل 1 - مقدمه ای بر استریمینگ Streaming Chapter 1 - Introduction to Streaming
DSstreams DStreams
شروع یک کار استریمینگ Starting a Streaming Job
انتقال جریان Streaming Transformations
تجمعات جریانی Streaming Aggregations
SparkUI برای کارهای جریانی SparkUI for Streaming Jobs
دسته های پنجره Windowing Batches

ماژول 4 - جریان جرقه و جریان ساخت یافته با کافکا Module 4 -Spark Streaming and Structured Streaming with Kafka

به ماژول 4 - Spark Streaming خوش آمدید Welcome to Module 4 - Spark Streaming
استریم فصل 1 - مقدمه ای بر استریمینگ Streaming Chapter 1 - Introduction to Streaming
DSstreams DStreams
شروع یک کار استریمینگ Starting a Streaming Job
انتقال جریان Streaming Transformations
تجمعات جریانی Streaming Aggregations
SparkUI برای کارهای جریانی SparkUI for Streaming Jobs
دسته های پنجره Windowing Batches

استریم فصل 2 - استریم با آپاچی کافکا Streaming Chapter 2 - Streaming with Apache Kafka

مروری بر کافکا Overview of Kafka
نصب کافکا Installing Kafka
با استفاده از شبیه ساز رویداد کافکا Using a Kafka Event Simulator
ادغام کافکا با اسپارک Integrating Kafka with Spark
استفاده از KafkaUtils برای دسترسی به DStream Using KafkaUtils to access a DStream
نوشتن تجمیع کافکا Writing a Kafka Aggegration
افزودن یک پنجره Adding a Window
افزودن فاصله اسلاید Adding a Slide Interval

استریم فصل 2 - استریم با آپاچی کافکا Streaming Chapter 2 - Streaming with Apache Kafka

مروری بر کافکا Overview of Kafka
نصب کافکا Installing Kafka
با استفاده از شبیه ساز رویداد کافکا Using a Kafka Event Simulator
ادغام کافکا با اسپارک Integrating Kafka with Spark
استفاده از KafkaUtils برای دسترسی به DStream Using KafkaUtils to access a DStream
نوشتن تجمیع کافکا Writing a Kafka Aggegration
افزودن یک پنجره Adding a Window
افزودن فاصله اسلاید Adding a Slide Interval

جریان فصل 3- جریان ساخت یافته Streaming Chapter 3- Structured Streaming

بررسی اجمالی جریان ساختاریافته Structured Streaming Overview
سینک های داده Data Sinks
حالت های خروجی جریان ساخت یافته Structured Streaming Output Modes
ویندوز و واترمارک Windows and Watermarks
اندازه دسته در استریم ساختاریافته چقدر است؟ What is the Batch Size in Structured Streaming?
خطوط لوله جریان ساختار یافته کافکا Kafka Structured Streaming Pipelines
سخنرانی پاداش Bonus lecture

جریان فصل 3- جریان ساخت یافته Streaming Chapter 3- Structured Streaming

بررسی اجمالی جریان ساختاریافته Structured Streaming Overview
سینک های داده Data Sinks
حالت های خروجی جریان ساخت یافته Structured Streaming Output Modes
ویندوز و واترمارک Windows and Watermarks
اندازه دسته در استریم ساختاریافته چقدر است؟ What is the Batch Size in Structured Streaming?
خطوط لوله جریان ساختار یافته کافکا Kafka Structured Streaming Pipelines
سخنرانی پاداش Bonus lecture

برای ارسال نظر ثبت نام کنید.

آموزش Apache Spark برای توسعه دهندگان جاوا - آخرین آپدیت

Apache Spark for Java Developers

معرفی Introduction

خوش آمدی Welcome

دانلود کد Downloading the Code

ماژول 1 - مقدمه Module 1 - Introduction

Spark Architecture و RDDs Spark Architecture and RDDs

معرفی Introduction

خوش آمدی Welcome

دانلود کد Downloading the Code

ماژول 1 - مقدمه Module 1 - Introduction

Spark Architecture و RDDs Spark Architecture and RDDs

شروع شدن Getting Started

هشدار - جاوا 9+ توسط Spark 2 پشتیبانی نمی شود. می توانید به صورت اختیاری از Spark 3 استفاده کنید. Warning - Java 9+ is not supported by Spark 2. You can optionally use Spark 3.

نصب اسپارک Installing Spark

شروع شدن Getting Started

هشدار - جاوا 9+ توسط Spark 2 پشتیبانی نمی شود. می توانید به صورت اختیاری از Spark 3 استفاده کنید. Warning - Java 9+ is not supported by Spark 2. You can optionally use Spark 3.

نصب اسپارک Installing Spark

RDD ها را کاهش می دهد Reduces on RDDs

RDD ها را کاهش می دهد Reduces on RDDs

RDD ها را کاهش می دهد Reduces on RDDs

RDD ها را کاهش می دهد Reduces on RDDs

نقشه برداری و خروجی Mapping and Outputting

عملیات نقشه برداری Mapping Operations

خروجی نتایج به کنسول Outputting Results to the Console

شمارش اقلام کلان داده Counting Big Data Items

اگر یک "NotSerializableException" در Spark داشته اید If you've had a "NotSerializableException" in Spark

نقشه برداری و خروجی Mapping and Outputting

عملیات نقشه برداری Mapping Operations

خروجی نتایج به کنسول Outputting Results to the Console

شمارش اقلام کلان داده Counting Big Data Items

اگر یک "NotSerializableException" در Spark داشته اید If you've had a "NotSerializableException" in Spark

تاپل ها Tuples

RDD های اشیاء RDDs of Objects

تاپل ها و RDD ها Tuples and RDDs

تاپل ها Tuples

RDD های اشیاء RDDs of Objects

تاپل ها و RDD ها Tuples and RDDs

PairRDDs PairRDDs

مروری بر PairRDD ها Overview of PairRDDs

ساخت PairRDD Building a PairRDD

کدنویسی ReduceByKey Coding a ReduceByKey

با استفاده از Fluent API Using the Fluent API

گروه بندی بر اساس کلید Grouping By Key

PairRDDs PairRDDs

مروری بر PairRDD ها Overview of PairRDDs

ساخت PairRDD Building a PairRDD

کدنویسی ReduceByKey Coding a ReduceByKey

با استفاده از Fluent API Using the Fluent API

گروه بندی بر اساس کلید Grouping By Key

FlatMaps و فیلترها FlatMaps and Filters

FlatMaps FlatMaps

فیلترها Filters

FlatMaps و فیلترها FlatMaps and Filters

FlatMaps FlatMaps

فیلترها Filters

خواندن از دیسک Reading from Disk

خواندن از دیسک Reading from Disk

خواندن از دیسک Reading from Disk

خواندن از دیسک Reading from Disk

رتبه بندی کلمات کلیدی عملی است Keyword Ranking Practical

الزامات عملی Practical Requirements

راه حل کار کرد Worked Solution

راه حل کار شده (ادامه) با مرتب سازی Worked Solution (continued) with Sorting

رتبه بندی کلمات کلیدی عملی است Keyword Ranking Practical

الزامات عملی Practical Requirements

راه حل کار کرد Worked Solution

راه حل کار شده (ادامه) با مرتب سازی Worked Solution (continued) with Sorting

مرتب سازی و ادغام Sorts and Coalesce

چرا مرتب سازی ها با foreach در Spark کار نمی کنند؟ Why do sorts not work with foreach in Spark?

چرا Coalesce راه حل اشتباهی است Why Coalesce is the Wrong Solution

از Coalesce در Spark چه استفاده می شود؟ What is Coalesce used for in Spark?

مرتب سازی و ادغام Sorts and Coalesce

چرا مرتب سازی ها با foreach در Spark کار نمی کنند؟ Why do sorts not work with foreach in Spark?

چرا Coalesce راه حل اشتباهی است Why Coalesce is the Wrong Solution

از Coalesce در Spark چه استفاده می شود؟ What is Coalesce used for in Spark?

استقرار در AWS EMR (اختیاری) Deploying to AWS EMR (Optional)

چگونه یک خوشه اسپارک EMR را راه اندازی کنیم How to start an EMR Spark Cluster

بسته بندی یک شیشه جرقه برای EMR Packing a Spark Jar for EMR

اجرای Spark Job در EMR Running a Spark Job on EMR