لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش آپاچی اسپارک 3 با اسکالا: دست به کار با داده های بزرگ!
Apache Spark 3 with Scala: Hands On with Big Data!
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
جدید! برای Spark 3.0 به روز شد!
تجزیه و تحلیل «دادههای بزرگ» یک مهارت داغ و بسیار ارزشمند است – و این دوره به شما داغترین فناوری در کلان داده را آموزش میدهد: Apache Spark. کارفرمایان از جمله Amazon، EBay، NASA JPL و Yahoo همگی از Spark برای استخراج سریع معنی استفاده میکنند. از مجموعه دادههای انبوه در سراسر یک خوشه Hadoop مقاوم در برابر خطا. همان تکنیکها را با استفاده از سیستم ویندوز خود در خانه یاد خواهید گرفت. این آسانتر از آن چیزی است که فکر میکنید، و از یک مهندس سابق و مدیر ارشد خواهید آموخت. از Amazon و IMDb.
Spark هنگام استفاده از زبان برنامه نویسی Scala بهترین عملکرد را دارد، و این دوره شامل یک دوره آموزشی تصادفی در Scala است تا شما را سریعاً به سرعت افزایش دهد. با این حال، برای کسانی که با Python آشنایی بیشتری دارند، نسخه پایتون این کلاس نیز در دسترس است: "Taming Big Data with Apache Spark and Python - Hands On".
در بیش از 20 مثال عملی، هنر قاببندی مشکلات تجزیه و تحلیل دادهها را بهعنوان مشکلات Spark بیاموزید و به آن مسلط شوید و سپس آنها را برای اجرای سرویسهای رایانش ابری در این دوره، مقیاس دهید.
مفاهیم ذخیرهسازی دادههای توزیعشده انعطافپذیر Spark را بیاموزید
در زبان برنامه نویسی اسکالا یک دوره آموزشی خرابی دریافت کنید
کارهای Spark را به سرعت با استفاده از Scala توسعه و اجرا کنید
مسائل تحلیل پیچیده را به اسکریپت های Spark تکراری یا چند مرحله ای ترجمه کنید
با استفاده از سرویس Elastic MapReduce آمازون، مجموعه دادههای بزرگتر را افزایش دهید
بدانید که Hadoop YARN چگونه Spark را در میان خوشههای محاسباتی توزیع میکند
استفاده از سایر فناوریهای Spark، مانند Spark SQL، DataFrames، DataSets، Spark Streaming و GraphX را تمرین کنید
در پایان این دوره، کدی را اجرا میکنید که در عرض چند دقیقه، اطلاعات گیگابایت را در فضای ابری تجزیه و تحلیل میکند.
در طول راه کمی سرگرم خواهیم شد. با چند مثال ساده از استفاده از Spark برای تجزیه و تحلیل دادههای رتبهبندی فیلم و متن در یک کتاب، گرم میشوید. زمانی که اصول اولیه را در دست گرفتید، به سراغ کارهای پیچیده و جالب تر می رویم. ما از یک میلیون رتبهبندی فیلم برای یافتن فیلمهایی که شبیه یکدیگر هستند استفاده میکنیم، و حتی ممکن است در این فرآیند فیلمهای جدیدی را که ممکن است دوست داشته باشید کشف کنید! ما یک نمودار اجتماعی از ابرقهرمانان را تجزیه و تحلیل خواهیم کرد و خواهیم فهمید که "محبوب ترین" ابرقهرمان کیست - و سیستمی برای یافتن "درجات جدایی" بین ابرقهرمانان ایجاد می کنیم. آیا همه ابرقهرمانان مارول در چند درجه از اتصال به مرد عنکبوتی هستند؟ پاسخ را خواهید یافت.
این دوره بسیار کاربردی است. شما بیشتر وقت خود را صرف دنبال کردن با مربی خواهید کرد، زیرا ما با هم کد واقعی را می نویسیم، تجزیه و تحلیل می کنیم و اجرا می کنیم - هم در سیستم خود و هم در فضای ابری با استفاده از سرویس Elastic MapReduce آمازون. 7.5 ساعت محتوای ویدیویی گنجانده شده است، با بیش از 20 نمونه واقعی از افزایش پیچیدگی که میتوانید خودتان بسازید، اجرا کنید و مطالعه کنید. با سرعت خود و بر اساس برنامه زمانی خود از آنها عبور کنید. این دوره با مروری بر سایر فناوریهای مبتنی بر Spark، از جمله Spark SQL، Spark Streaming و GraphX به پایان میرسد.
اکنون ثبت نام کنید و از دوره لذت ببرید!
"من برای اولین بار Spark را با استفاده از دوره فرانک "Apache Spark 2 with Scala - Hands On with Big Data!" مطالعه کردم. این یک نقطه شروع عالی برای من بود، کسب دانش در Scala و مهمتر از همه نمونه های عملی از برنامه های Spark این به من درکی از تمام مفاهیم اصلی Spark مربوطه، RDD ها، مجموعه داده های فریم های داده، Spark Streaming، AWS EMR داد. در عرض چند ماه پس از اتمام، از دانش به دست آمده از این دوره استفاده کردم تا در شرکت فعلی خود به طور عمده روی کار کنم. برنامه های Spark. از آن زمان من به کار با Spark ادامه داده ام. من به شدت هر یک از دوره های Franks را توصیه می کنم زیرا او مفاهیم را به خوبی ساده می کند و روش تدریس او به راحتی قابل پیگیری و ادامه است! " - Joey Faherty
این کلاس پر از بسیاری از فعالیت های عملی جالب است که شامل تجزیه و تحلیل رتبه بندی فیلم ها و ارتباطات بین ابرقهرمانان می شود! اما در اینجا یک چالش دیگر وجود دارد که می توانید پس از اتمام دوره امتحان کنید:
یک اسکریپت Spark بنویسید که مجموعه دادههای یک میلیون رتبهبندی را از MovieLens که در این دوره استفاده کردیم، تجزیه و تحلیل میکند. بیایید بفهمیم بدترین فیلمی که تا به حال ساخته شده چه بوده است!
اما، ما نمیخواهیم فیلمی که فقط یک امتیاز دارد، که اتفاقاً یک ستاره است، "برنده" باشد. با تهیه فهرستی از فیلمها که بر اساس رتبهبندی متوسط مرتب شدهاند، شروع کنید، که سخت نیست - اما سپس آن فهرست را بر اساس تعداد رتبهبندیها مرتب کنید، به طوری که فیلمهایی که رتبه بد و همچنین تعداد زیادی رتبهبندی دارند، آنهایی باشند که نشان میدهند. اول بالا.
احتمالاً همچنان باید از تعداد زیادی نتایج جعلی 1 ستاره عبور کنید - پس در مرحله بعد، فیلتری را اجرا کنید که هر فیلمی را که مثلاً رتبهبندی کمتر از 10 دارند، حذف میکند. این باید فیلمهای مبهمی را که اطلاعات کافی برای آنها نداریم فیلتر کند. 10 یک قطع دلخواه است. ممکن است متوجه شوید که با آن شماره بازی می کنید.
شما همچنین با چالش تقسیم خروجی در هستههای مختلف که این دادهها را پردازش میکنند، مواجه خواهید بود. میتوانید برای دور زدن آن فقط از «محلی» به جای «محلی[*]» استفاده کنید، اما حتی بهتر است راهی برای ادغام نتایج با هم ابداع کنید - یا با یک اسکریپت یا با پیگیری یک جهانی. برنده" با یک متغیر پخش.
به نظر بدترین فیلم تاریخ چیست؟
سرفصل ها و درس ها
درس ها
Lessons
[فعالیت] مثال تعداد کلمات، با استفاده از مجموعه داده ها
[Activity] Word Count example, using Datasets
[تمرین] نتایج خود را بررسی کنید، و آنها را بر اساس کل مبلغ صرف شده مرتب کنید
[Exercise] Check your Results, and Sort Them by Total Amount Spent
بهترین تمرین ها برای دویدن روی یک خوشه
Best Practices for Running on a Cluster
مقدمه ای بر SparkSQL
Introduction to SparkSQL
[فعالیت] مبانی اسکالا
[Activity] Scala Basics
[تمرین] مثال «دوستان بر اساس سن» را با استفاده از DataSets اجرا کنید
[Exercise] Implement the "Friends by Age" example using DataSets
[تمرین] ساختارهای داده در اسکالا
[Exercise] Data Structures in Scala
استفاده از Pregel API با Spark GraphX
Using the Pregel API with Spark GraphX
[فعالیت] با استفاده از SparkSQL
[Activity] Using SparkSQL
فیلتر کردن RDDها و مثال دمای حداقل
Filtering RDD's, and the Minimum Temperature Example
درجات جدایی ابرقهرمانی: معرفی جستجوی عرض-اول
Superhero Degrees of Separation: Introducing Breadth-First Search
نصب مواد درسی
Installing the Course Materials
مجموعه داده های توزیع شده انعطاف پذیر
The Resilient Distributed Dataset
رگرسیون خطی با MLLib
Linear Regression with MLLib
جریان ساخت یافته
Structured Streaming
راه حل تمرین: پیش بینی املاک و مستغلات با درختان تصمیم در اسپارک
Exercise Solution: Predicting Real Estate with Decision Trees in Spark
[فعالیت] درجات جدایی ابرقهرمانی با استفاده از GraphX
[Activity] Superhero Degrees of Separation using GraphX
[فعالیت] مرتب سازی نتایج شمارش کلمات
[Activity] Sorting the Word Count Results
مقدمه
Introduction
[تمرین] یک اسکریپت را با SBT بسته بندی کنید و آن را به صورت محلی با spark-submit اجرا کنید
[Exercise] Package a Script with SBT and Run it Locally with spark-submit
[فعالیت] استفاده از spark-submit برای اجرای اسکریپتهای درایور Spark
[Activity] Using spark-submit to run Spark driver scripts
[تمرین] توابع در اسکالا
[Exercise] Functions in Scala
[فعالیت] بهبود اسکریپت تعداد کلمات با عبارات منظم
[Activity] Improving the Word Count Script with Regular Expressions
[فعالیت] نظارت در زمان واقعی بر محبوب ترین هشتگ ها در توییتر
[Activity] Real-time Monitoring of the Most Popular Hashtags on Twitter
[فعالیت] محبوب ترین ابرقهرمان را در نمودار اجتماعی پیدا کنید
[Activity] Find the Most Popular Superhero in a Social Graph
مقدمه ای بر آپاچی اسپارک
Introduction to Apache Spark
نتایج و اجرای خود را در مقابل من بررسی کنید
Check Your Results and Implementation Against Mine
راه حل تمرین: با استفاده از SBT و spark-submit
Exercise solution: Using SBT and spark-submit
درجات جدایی ابرقهرمانی: انباشتهکنندهها و پیادهسازی BFS در اسپارک
Superhero Degrees of Separation: Accumulators, and Implementing BFS in Spark
GraphX، Pregel، و Breadth-First-Search با Pregel.
GraphX, Pregel, and Breadth-First-Search with Pregel.
[فعالیت] استفاده از جریان ساخت یافته برای تجزیه و تحلیل گزارش بلادرنگ
[Activity] Using Structured Streaming for real-time log analysis
راه حل تمرین: URL های برتر در یک پنجره 30 ثانیه ای
Exercise Solution: Top URL's in a 30-second Window
[فعالیت] اجرای میانگین دوستان بر اساس سن مثال
[Activity] Running the Average Friends by Age Example
[فعالیت] بسته بندی اسکریپت های درایور با SBT
[Activity] Packaging driver scripts with SBT
[فعالیت] بازبینی مثال حداقل دما، با مجموعه داده ها
[Activity] Revisiting the Minimum Temperature example, with Datasets
[فعالیت] درجات جدایی ابرقهرمانی: کد را مرور کنید و آن را اجرا کنید!
[Activity] Superhero Degrees of Separation: Review the code, and run it!
کلید/ارزش RDD، و میانگین دوستان بر اساس سن مثال
Key / Value RDD's, and the Average Friends by Age Example
[فعالیت] شمارش کلمات با استفاده از Flatmap()
[Activity] Counting Word Occurrences using Flatmap()
ایجاد فیلم های مشابه از یک میلیون رتبه در EMR
Creating Similar Movies from One Million Ratings on EMR
[فعالیت] محبوب ترین فیلم را پیدا کنید
[Activity] Find the Most Popular Movie
فرانک 9 سال را در آمازون و IMDb گذراند و فناوری را توسعه و مدیریت کرد که به طور خودکار توصیه های محصول و فیلم را به صدها میلیون مشتری ارائه می دهد. زمان. فرانک دارای 17 حق ثبت اختراع صادر شده در زمینه های محاسبات توزیع شده ، داده کاوی و یادگیری ماشین است. در سال 2012، فرانک شرکت موفق خود را به نام Sundog Software راه اندازی کرد که بر فناوری محیط واقعیت مجازی تمرکز دارد و به دیگران در مورد تجزیه و تحلیل داده های بزرگ آموزش می دهد.
نمایش نظرات