آموزش آپاچی اسپارک 3 با اسکالا: دست به کار با داده های بزرگ!

Apache Spark 3 with Scala: Hands On with Big Data!

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:

جدید! برای Spark 3.0 به روز شد!

تجزیه و تحلیل «داده‌های بزرگ» یک مهارت داغ و بسیار ارزشمند است – و این دوره به شما داغ‌ترین فناوری در کلان داده را آموزش می‌دهد:  Apache Spark. کارفرمایان از جمله Amazon، EBay، NASA JPL و  Yahoo همگی از Spark برای استخراج سریع معنی استفاده می‌کنند. از مجموعه داده‌های انبوه در سراسر یک خوشه Hadoop مقاوم در برابر خطا. همان تکنیک‌ها را با استفاده از سیستم ویندوز خود در خانه یاد خواهید گرفت. این آسان‌تر از آن چیزی است که فکر می‌کنید، و از یک مهندس سابق و مدیر ارشد خواهید آموخت. از Amazon و IMDb.

Spark هنگام استفاده از زبان برنامه نویسی Scala بهترین عملکرد را دارد، و این دوره شامل یک دوره آموزشی تصادفی در Scala است تا شما را سریعاً به سرعت افزایش دهد. با این حال، برای کسانی که با Python آشنایی بیشتری دارند، نسخه پایتون این کلاس نیز در دسترس است: "Taming Big Data with Apache Spark and Python - Hands On".

در بیش از 20 مثال عملی، هنر قاب‌بندی مشکلات تجزیه و تحلیل داده‌ها را به‌عنوان مشکلات Spark بیاموزید و به آن مسلط شوید و سپس آنها را برای اجرای سرویس‌های رایانش ابری در این دوره، مقیاس دهید.

  • مفاهیم ذخیره‌سازی داده‌های توزیع‌شده انعطاف‌پذیر Spark را بیاموزید

  • در زبان برنامه نویسی اسکالا یک دوره آموزشی خرابی دریافت کنید

  • کارهای Spark را به سرعت با استفاده از Scala توسعه و اجرا کنید

  • مسائل تحلیل پیچیده را به اسکریپت های Spark تکراری یا چند مرحله ای ترجمه کنید

  • با استفاده از سرویس Elastic MapReduce آمازون، مجموعه داده‌های بزرگ‌تر را افزایش دهید

  • بدانید که Hadoop YARN چگونه Spark را در میان خوشه‌های محاسباتی توزیع می‌کند

  • استفاده از سایر فناوری‌های Spark، مانند Spark SQL، DataFrames، DataSets، Spark Streaming و GraphX ​​را تمرین کنید

در پایان این دوره، کدی را اجرا می‌کنید که در عرض چند دقیقه، اطلاعات گیگابایت را در فضای ابری تجزیه و تحلیل می‌کند.

در طول راه کمی سرگرم خواهیم شد. با چند مثال ساده از استفاده از Spark برای تجزیه و تحلیل داده‌های رتبه‌بندی فیلم و متن در یک کتاب، گرم می‌شوید. زمانی که اصول اولیه را در دست گرفتید، به سراغ کارهای پیچیده و جالب تر می رویم. ما از یک میلیون رتبه‌بندی فیلم برای یافتن فیلم‌هایی که شبیه یکدیگر هستند استفاده می‌کنیم، و حتی ممکن است در این فرآیند فیلم‌های جدیدی را که ممکن است دوست داشته باشید کشف کنید! ما یک نمودار اجتماعی از ابرقهرمانان را تجزیه و تحلیل خواهیم کرد و خواهیم فهمید که "محبوب ترین" ابرقهرمان کیست - و سیستمی برای یافتن "درجات جدایی" بین ابرقهرمانان ایجاد می کنیم. آیا همه ابرقهرمانان مارول در چند درجه از اتصال به مرد عنکبوتی هستند؟ پاسخ را خواهید یافت.

این دوره بسیار کاربردی است. شما بیشتر وقت خود را صرف دنبال کردن با مربی خواهید کرد، زیرا ما با هم کد واقعی را می نویسیم، تجزیه و تحلیل می کنیم و اجرا می کنیم - هم در سیستم خود و هم در فضای ابری با استفاده از سرویس Elastic MapReduce آمازون. 7.5 ساعت محتوای ویدیویی گنجانده شده است، با بیش از 20 نمونه واقعی از افزایش پیچیدگی که می‌توانید خودتان بسازید، اجرا کنید و مطالعه کنید. با سرعت خود و بر اساس برنامه زمانی خود از آنها عبور کنید. این دوره با مروری بر سایر فناوری‌های مبتنی بر Spark، از جمله Spark SQL، Spark Streaming و GraphX ​​به پایان می‌رسد.

اکنون ثبت نام کنید و از دوره لذت ببرید!

"من برای اولین بار Spark را با استفاده از دوره فرانک "Apache Spark 2 with Scala - Hands On with Big Data!" مطالعه کردم. این یک نقطه شروع عالی برای من بود،  کسب دانش در Scala و مهمتر از همه نمونه های عملی از برنامه های Spark این به من درکی از تمام مفاهیم اصلی Spark مربوطه،  RDD ها، مجموعه داده های فریم های داده، Spark Streaming، AWS EMR داد. در عرض چند ماه پس از اتمام، از دانش به دست آمده از این دوره استفاده کردم تا در شرکت فعلی خود به طور عمده روی کار کنم. برنامه های Spark. از آن زمان من به کار با Spark ادامه داده ام. من به شدت هر یک از دوره های Franks را توصیه می کنم زیرا او مفاهیم را به خوبی ساده می کند و روش تدریس او به راحتی قابل پیگیری و ادامه است!  " - Joey Faherty

این کلاس پر از بسیاری از فعالیت های عملی جالب است که شامل تجزیه و تحلیل رتبه بندی فیلم ها و ارتباطات بین ابرقهرمانان می شود! اما در اینجا یک چالش دیگر وجود دارد که می توانید پس از اتمام دوره امتحان کنید:

یک اسکریپت Spark بنویسید که مجموعه داده‌های یک میلیون رتبه‌بندی را از MovieLens که در این دوره استفاده کردیم، تجزیه و تحلیل می‌کند. بیایید بفهمیم بدترین فیلمی که تا به حال ساخته شده چه بوده است!

اما، ما نمی‌خواهیم فیلمی که فقط یک امتیاز دارد، که اتفاقاً یک ستاره است، "برنده" باشد. با تهیه فهرستی از فیلم‌ها که بر اساس رتبه‌بندی متوسط ​​مرتب شده‌اند، شروع کنید، که سخت نیست - اما سپس آن فهرست را بر اساس تعداد رتبه‌بندی‌ها مرتب کنید، به طوری که فیلم‌هایی که رتبه بد و همچنین تعداد زیادی رتبه‌بندی دارند، آنهایی باشند که نشان می‌دهند. اول بالا.

احتمالاً همچنان باید از تعداد زیادی نتایج جعلی 1 ستاره عبور کنید - پس در مرحله بعد، فیلتری را اجرا کنید که هر فیلمی را که مثلاً رتبه‌بندی کمتر از 10 دارند، حذف می‌کند. این باید فیلم‌های مبهمی را که اطلاعات کافی برای آنها نداریم فیلتر کند. 10 یک قطع دلخواه است. ممکن است متوجه شوید که با آن شماره بازی می کنید.

شما همچنین با چالش تقسیم خروجی در هسته‌های مختلف که این داده‌ها را پردازش می‌کنند، مواجه خواهید بود. می‌توانید برای دور زدن آن فقط از «محلی» به جای «محلی[*]» استفاده کنید، اما حتی بهتر است راهی برای ادغام نتایج با هم ابداع کنید - یا با یک اسکریپت یا با پیگیری یک جهانی. برنده" با یک متغیر پخش.

به نظر بدترین فیلم تاریخ چیست؟


سرفصل ها و درس ها

درس ها Lessons

  • [فعالیت] مثال تعداد کلمات، با استفاده از مجموعه داده ها [Activity] Word Count example, using Datasets

  • [تمرین] نتایج خود را بررسی کنید، و آنها را بر اساس کل مبلغ صرف شده مرتب کنید [Exercise] Check your Results, and Sort Them by Total Amount Spent

  • بهترین تمرین ها برای دویدن روی یک خوشه Best Practices for Running on a Cluster

  • مقدمه ای بر SparkSQL Introduction to SparkSQL

  • [فعالیت] مبانی اسکالا [Activity] Scala Basics

  • [تمرین] مثال «دوستان بر اساس سن» را با استفاده از DataSets اجرا کنید [Exercise] Implement the "Friends by Age" example using DataSets

  • [تمرین] ساختارهای داده در اسکالا [Exercise] Data Structures in Scala

  • استفاده از Pregel API با Spark GraphX Using the Pregel API with Spark GraphX

  • [فعالیت] با استفاده از SparkSQL [Activity] Using SparkSQL

  • فیلتر کردن RDDها و مثال دمای حداقل Filtering RDD's, and the Minimum Temperature Example

  • درجات جدایی ابرقهرمانی: معرفی جستجوی عرض-اول Superhero Degrees of Separation: Introducing Breadth-First Search

  • نصب مواد درسی Installing the Course Materials

  • مجموعه داده های توزیع شده انعطاف پذیر The Resilient Distributed Dataset

  • رگرسیون خطی با MLLib Linear Regression with MLLib

  • جریان ساخت یافته Structured Streaming

  • راه حل تمرین: پیش بینی املاک و مستغلات با درختان تصمیم در اسپارک Exercise Solution: Predicting Real Estate with Decision Trees in Spark

  • [فعالیت] درجات جدایی ابرقهرمانی با استفاده از GraphX [Activity] Superhero Degrees of Separation using GraphX

  • [فعالیت] مرتب سازی نتایج شمارش کلمات [Activity] Sorting the Word Count Results

  • مقدمه Introduction

  • [تمرین] یک اسکریپت را با SBT بسته بندی کنید و آن را به صورت محلی با spark-submit اجرا کنید [Exercise] Package a Script with SBT and Run it Locally with spark-submit

  • [فعالیت] استفاده از spark-submit برای اجرای اسکریپت‌های درایور Spark [Activity] Using spark-submit to run Spark driver scripts

  • [تمرین] توابع در اسکالا [Exercise] Functions in Scala

  • [فعالیت] بهبود اسکریپت تعداد کلمات با عبارات منظم [Activity] Improving the Word Count Script with Regular Expressions

  • [فعالیت] نظارت در زمان واقعی بر محبوب ترین هشتگ ها در توییتر [Activity] Real-time Monitoring of the Most Popular Hashtags on Twitter

  • [فعالیت] محبوب ترین ابرقهرمان را در نمودار اجتماعی پیدا کنید [Activity] Find the Most Popular Superhero in a Social Graph

  • مقدمه ای بر آپاچی اسپارک Introduction to Apache Spark

  • نتایج و اجرای خود را در مقابل من بررسی کنید Check Your Results and Implementation Against Mine

  • راه حل تمرین: با استفاده از SBT و spark-submit Exercise solution: Using SBT and spark-submit

  • درجات جدایی ابرقهرمانی: انباشته‌کننده‌ها و پیاده‌سازی BFS در اسپارک Superhero Degrees of Separation: Accumulators, and Implementing BFS in Spark

  • GraphX، Pregel، و Breadth-First-Search با Pregel. GraphX, Pregel, and Breadth-First-Search with Pregel.

  • [فعالیت] استفاده از جریان ساخت یافته برای تجزیه و تحلیل گزارش بلادرنگ [Activity] Using Structured Streaming for real-time log analysis

  • راه حل تمرین: URL های برتر در یک پنجره 30 ثانیه ای Exercise Solution: Top URL's in a 30-second Window

  • [فعالیت] اجرای میانگین دوستان بر اساس سن مثال [Activity] Running the Average Friends by Age Example

  • [فعالیت] بسته بندی اسکریپت های درایور با SBT [Activity] Packaging driver scripts with SBT

  • [فعالیت] بازبینی مثال حداقل دما، با مجموعه داده ها [Activity] Revisiting the Minimum Temperature example, with Datasets

  • [فعالیت] درجات جدایی ابرقهرمانی: کد را مرور کنید و آن را اجرا کنید! [Activity] Superhero Degrees of Separation: Review the code, and run it!

  • کلید/ارزش RDD، و میانگین دوستان بر اساس سن مثال Key / Value RDD's, and the Average Friends by Age Example

  • [فعالیت] شمارش کلمات با استفاده از Flatmap() [Activity] Counting Word Occurrences using Flatmap()

  • ایجاد فیلم های مشابه از یک میلیون رتبه در EMR Creating Similar Movies from One Million Ratings on EMR

  • [فعالیت] محبوب ترین فیلم را پیدا کنید [Activity] Find the Most Popular Movie

  • معرفی Amazon Elastic MapReduce Introducing Amazon Elastic MapReduce

  • DStream API برای Spark Streaming The DStream API for Spark Streaming

  • فیلتر مشارکتی مبتنی بر آیتم در Spark، cache() و persist() Item-Based Collaborative Filtering in Spark, cache(), and persist()

  • نمونه هیستوگرام رتبه بندی Ratings Histogram Example

  • عیب یابی و مدیریت وابستگی ها Troubleshooting, and Managing Dependencies

  • [تمرین] مسئله «کل خرج شده توسط مشتری» را با Datasets پیاده کنید [Exercise] Implement the "Total Spent by Customer" problem with Datasets

  • لوازم داخلی اسپارک Spark Internals

  • [فعالیت] استفاده از DataSets [Activity] Using DataSets

  • [فعالیت] اجرای اسکریپت فیلم های مشابه با استفاده از Spark's Cluster Manager [Activity] Running the Similar Movies Script using Spark's Cluster Manager

  • [تمرین] پیش بینی ارزش املاک و مستغلات با درختان تصمیم در Spark [Exercise] Predict Real Estate Values with Decision Trees in Spark

  • راه حل تمرین: مبهم ترین ابرقهرمانان را پیدا کنید Exercise Solution: Find the Most Obscure Superheroes

  • [تمرین] کل مبلغ خرج شده توسط مشتری را بیابید [Exercise] Find the Total Amount Spent by Customer

  • راه حل تمرین: دوستان بر اساس سن، با مجموعه داده ها. Exercise Solution: Friends by Age, with Datasets.

  • [تمرین] عملیات پنجره‌دار با جریان ساخت‌یافته [Exercise] Windowed Operations with Structured Streaming

  • [فعالیت] اجرای مثال حداقل دما و تغییر آن برای حداکثر [Activity] Running the Minimum Temperature Example, and Modifying it for Maximum

  • [تمرین] مبهم ترین ابرقهرمانان را پیدا کنید [Exercise] Find the Most Obscure Superheroes

  • [تمرین] کیفیت فیلم های مشابه را بهبود بخشید [Exercise] Improve the Quality of Similar Movies

  • [فعالیت] از متغیرهای پخش برای نمایش نام فیلم استفاده کنید [Activity] Use Broadcast Variables to Display Movie Names

  • [تمرین] کنترل جریان در اسکالا [Exercise] Flow Control in Scala

  • پارتیشن بندی Partitioning

  • معرفی MLLib Introducing MLLib

  • [فعالیت] استفاده از MLLib برای تولید توصیه‌های فیلم [Activity] Using MLLib to Produce Movie Recommendations

  • راه حل تمرین: کل هزینه شده توسط مشتری با مجموعه داده ها Exercise Solution: Total Spent by Customer with Datasets

  • [فعالیت] اجرای رگرسیون خطی با اسپارک [Activity] Running a Linear Regression with Spark

نمایش نظرات

آموزش آپاچی اسپارک 3 با اسکالا: دست به کار با داده های بزرگ!
جزییات دوره
8h 50m
64
Skillshare (اسکیل شیر) Skillshare (اسکیل شیر)
(آخرین آپدیت)
493
4 از 5
ندارد
دارد
دارد
Frank Kane
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Frank Kane Frank Kane

یادگیری ماشین و داده های بزرگ، آمازون سابق

فرانک 9 سال را در آمازون و IMDb گذراند و فناوری را توسعه و مدیریت کرد که به طور خودکار توصیه های محصول و فیلم را به صدها میلیون مشتری ارائه می دهد. زمان. فرانک دارای 17 حق ثبت اختراع صادر شده در زمینه های محاسبات توزیع شده ، داده کاوی و یادگیری ماشین است. در سال 2012، فرانک شرکت موفق خود را به نام Sundog Software راه اندازی کرد که بر فناوری محیط واقعیت مجازی تمرکز دارد و به دیگران در مورد تجزیه و تحلیل داده های بزرگ آموزش می دهد.