لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش آپاچی اسپارک با اسکالا - با داده های بزرگ کار می کنیم!
Apache Spark with Scala - Hands On with Big Data!
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
آموزش Apache Spark با بیش از 20 مثال عملی از تجزیه و تحلیل مجموعه داده های بزرگ، روی دسکتاپ یا Hadoop با Scala! ایجاد کد توزیع شده با استفاده از زبان برنامه نویسی Scala تبدیل داده های ساختاریافته با استفاده از SparkSQL، DataSets و DataFrame Frame مشکلات تجزیه و تحلیل داده های بزرگ به عنوان اسکریپت های Spark Apache بهینه سازی کارهای Spark از طریق پارتیشن بندی، ذخیره کش و تکنیک های دیگر ساخت، استقرار و اجرای اسکریپت های Spark در فرآیند خوشه های Hadoop جریان های مداوم داده ها با Spark Streaming ساختارهای نمودار را با استفاده از GraphX تجزیه و تحلیل کنید. یک دوره کرش در اسکالا گنجانده شده است، اما برای انتخاب آن باید اصول برنامه نویسی را بدانید. شما به یک کامپیوتر رومیزی و اتصال به اینترنت نیاز دارید. این دوره با در نظر گرفتن ویندوز ایجاد شده است، اما کاربرانی که با MacOS یا Linux راحت هستند می توانند از ابزارهای مشابه استفاده کنند. نرم افزار مورد نیاز این دوره به صورت رایگان در دسترس است و من شما را با دانلود و نصب آن راهنمایی خواهم کرد.
جدید! برای Spark 3، IntelliJ، Structured Streaming، و تمرکز بیشتر روی DataSet API کاملاً بهروزرسانی و دوباره ضبط شده است.
تجزیه و تحلیل «دادههای بزرگ» یک مهارت داغ و بسیار ارزشمند است – و این دوره به شما داغترین فناوری در دادههای بزرگ را میآموزد: Apache Spark. کارفرمایان از جمله Amazon، EBay، NASA JPL و Yahoo همگی از Spark برای استخراج سریع معنی استفاده میکنند. از مجموعه داده های انبوه در سراسر یک خوشه هدوپ مقاوم در برابر خطا. شما همان تکنیک ها را با استفاده از سیستم ویندوز خود در خانه یاد خواهید گرفت. این ساده تر از آن چیزی است که فکر می کنید، و از یک مهندس سابق و مدیر ارشد یاد خواهید گرفت. از آمازون و IMDb.
Spark هنگام استفاده از زبان برنامه نویسی Scala بهترین کار را انجام می دهد، و این دوره شامل یک دوره آموزشی در Scala است تا شما را سریعاً به سرعت افزایش دهد. با این حال، برای کسانی که بیشتر با پایتون آشنا هستند، یک نسخه پایتون از این کلاس نیز موجود است: "رام کردن داده های بزرگ با اسپارک آپاچی و پایتون - Hands On".
در بیش از 20 مثال عملی، هنر قاببندی مسائل تجزیه و تحلیل دادهها را بهعنوان مشکلات Spark بیاموزید و به آن مسلط شوید و سپس آنها را برای اجرای سرویسهای رایانش ابری در این دوره، مقیاس دهید.
مفاهیم مجموعه دادههای توزیعشده انعطافپذیر، DataFrames و مجموعه دادههای Spark را بیاموزید.
در زبان برنامه نویسی اسکالا یک دوره آموزشی خرابی دریافت کنید
توسعه و اجرای سریع کارهای Spark با استفاده از Scala، IntelliJ و SBT
مسائل تحلیل پیچیده را به اسکریپت های Spark تکراری یا چند مرحله ای ترجمه کنید
با استفاده از سرویس Elastic MapReduce آمازون، مجموعه دادههای بزرگتر را افزایش دهید
دریابید که Hadoop YARN چگونه Spark را در میان خوشههای محاسباتی توزیع میکند
استفاده از سایر فناوریهای Spark، مانند Spark SQL، DataFrames، DataSets، Spark Streaming، Machine Learning و GraphX را تمرین کنید
در پایان این دوره، کدی را اجرا خواهید کرد که در عرض چند دقیقه، اطلاعاتی به ارزش گیگابایت را - در فضای ابری - تجزیه و تحلیل میکند.
در طول راه کمی سرگرم خواهیم شد. با چند مثال ساده از استفاده از Spark برای تجزیه و تحلیل دادههای رتبهبندی فیلم و متن در یک کتاب، گرم میشوید. زمانی که اصول اولیه را در دست گرفتید، به سراغ کارهای پیچیده و جالب تر می رویم. ما از یک میلیون رتبهبندی فیلم برای یافتن فیلمهایی که شبیه یکدیگر هستند استفاده میکنیم، و حتی ممکن است در این فرآیند فیلمهای جدیدی را که ممکن است دوست داشته باشید کشف کنید! ما یک نمودار اجتماعی از ابرقهرمانان را تجزیه و تحلیل خواهیم کرد و خواهیم فهمید که "محبوب ترین" ابرقهرمان کیست - و سیستمی برای یافتن "درجات جدایی" بین ابرقهرمانان ایجاد می کنیم. آیا همه ابرقهرمانان مارول در چند درجه از اتصال به مرد عنکبوتی هستند؟ پاسخ را خواهید یافت.
این دوره بسیار کاربردی است. شما بیشتر وقت خود را صرف دنبال کردن با مربی خواهید کرد، زیرا ما با هم کد واقعی را می نویسیم، تجزیه و تحلیل می کنیم و اجرا می کنیم - هم در سیستم خود و هم در فضای ابری با استفاده از سرویس Elastic MapReduce آمازون. بیش از 8 ساعت محتوای ویدیویی گنجانده شده است، با بیش از 20 نمونه واقعی از افزایش پیچیدگی که می توانید خودتان بسازید، اجرا کنید و مطالعه کنید. با سرعت خود و بر اساس برنامه زمانی خود از آنها عبور کنید. این دوره با مروری بر سایر فناوریهای مبتنی بر Spark، از جمله Spark SQL، Spark Streaming و GraphX به پایان میرسد.
اکنون ثبت نام کنید و از دوره لذت ببرید!
"من برای اولین بار Spark را با استفاده از دوره فرانک "Apache Spark 2 with Scala - Hands On with Big Data!" مطالعه کردم. این یک نقطه شروع عالی برای من بود، کسب دانش در Scala و مهمتر از همه نمونه های عملی از برنامه های Spark این به من درک درستی از تمام مفاهیم اصلی Spark، RDD ها، Dataframes Datasets، Spark Streaming، AWS EMR داد. در عرض چند ماه پس از اتمام، من از دانش به دست آمده از این دوره استفاده کردم تا در شرکت فعلی خود به طور عمده روی آن کار کنم. برنامه های Spark. از آن زمان من به کار با Spark ادامه داده ام. من هر یک از دوره های Franks را به شدت توصیه می کنم زیرا او مفاهیم را به خوبی ساده می کند و روش تدریس او به راحتی قابل پیگیری و ادامه است! " - Joey Faherty
سرفصل ها و درس ها
شروع شدن
Getting Started
Udemy 101: بیشترین بهره را از این دوره ببرید
Udemy 101: Getting the Most From This Course
لینک دانلود جایگزین برای مجموعه داده ml-100k
Alternate download link for the ml-100k dataset
هشدار: در سخنرانی بعدی جاوا 16 را نصب نکنید
WARNING: DO NOT INSTALL JAVA 16 IN THE NEXT LECTURE
معرفی و نصب مواد درسی IntelliJ و Scala
Introduction, and installing the course materials, IntelliJ, and Scala
مقدمه ای بر آپاچی اسپارک
Introduction to Apache Spark
مبانی جرقه
Spark Basics
یادداشت مهم
Important note
شروع شدن
Getting Started
Udemy 101: بیشترین بهره را از این دوره ببرید
Udemy 101: Getting the Most From This Course
لینک دانلود جایگزین برای مجموعه داده ml-100k
Alternate download link for the ml-100k dataset
هشدار: در سخنرانی بعدی جاوا 16 را نصب نکنید
WARNING: DO NOT INSTALL JAVA 16 IN THE NEXT LECTURE
معرفی و نصب مواد درسی IntelliJ و Scala
Introduction, and installing the course materials, IntelliJ, and Scala
مقدمه ای بر آپاچی اسپارک
Introduction to Apache Spark
مبانی جرقه
Spark Basics
یادداشت مهم
Important note
دوره تصادف اسکالا [اختیاری]
Scala Crash Course [Optional]
[فعالیت] مبانی اسکالا
[Activity] Scala Basics
[تمرین] کنترل جریان در اسکالا
[Exercise] Flow Control in Scala
[تمرین] توابع در اسکالا
[Exercise] Functions in Scala
[تمرین] ساختارهای داده در اسکالا
[Exercise] Data Structures in Scala
دوره تصادف اسکالا [اختیاری]
Scala Crash Course [Optional]
[فعالیت] مبانی اسکالا
[Activity] Scala Basics
[تمرین] کنترل جریان در اسکالا
[Exercise] Flow Control in Scala
[تمرین] توابع در اسکالا
[Exercise] Functions in Scala
[تمرین] ساختارهای داده در اسکالا
[Exercise] Data Structures in Scala
استفاده از مجموعه داده های توزیع شده انعطاف پذیر (RDD)
Using Resilient Distributed Datasets (RDDs)
مجموعه داده های توزیع شده انعطاف پذیر
The Resilient Distributed Dataset
نمونه هیستوگرام رتبه بندی
Ratings Histogram Example
لوازم داخلی اسپارک
Spark Internals
کلید/ارزش RDD، و میانگین دوستان بر اساس سن مثال
Key / Value RDD's, and the Average Friends by Age example
[فعالیت] اجرای میانگین دوستان بر اساس سن مثال
[Activity] Running the Average Friends by Age Example
فیلتر کردن RDDها و حداقل دما بر اساس مکان مثال
Filtering RDD's, and the Minimum Temperature by Location Example
[فعالیت] اجرای مثال حداقل دما و تغییر آن برای حداکثر
[Activity] Running the Minimum Temperature Example, and Modifying it for Maximum
[فعالیت] شمارش کلمات با استفاده از Flatmap()
[Activity] Counting Word Occurrences using Flatmap()
[فعالیت] بهبود اسکریپت تعداد کلمات با عبارات منظم
[Activity] Improving the Word Count Script with Regular Expressions
[فعالیت] مرتب سازی نتایج شمارش کلمات
[Activity] Sorting the Word Count Results
[تمرین] کل مبلغ خرج شده توسط مشتری را بیابید
[Exercise] Find the Total Amount Spent by Customer
[تمرین] نتایج خود را بررسی کنید، و آنها را بر اساس کل مبلغ صرف شده مرتب کنید
[Exercise] Check your Results, and Sort Them by Total Amount Spent
نتایج و اجرای خود را در مقابل من بررسی کنید
Check Your Results and Implementation Against Mine
امتحان: RDD
Quiz: RDD's
استفاده از مجموعه داده های توزیع شده انعطاف پذیر (RDD)
Using Resilient Distributed Datasets (RDDs)
مجموعه داده های توزیع شده انعطاف پذیر
The Resilient Distributed Dataset
نمونه هیستوگرام رتبه بندی
Ratings Histogram Example
لوازم داخلی اسپارک
Spark Internals
کلید/ارزش RDD، و میانگین دوستان بر اساس سن مثال
Key / Value RDD's, and the Average Friends by Age example
[فعالیت] اجرای میانگین دوستان بر اساس سن مثال
[Activity] Running the Average Friends by Age Example
فیلتر کردن RDDها و حداقل دما بر اساس مکان مثال
Filtering RDD's, and the Minimum Temperature by Location Example
[فعالیت] اجرای مثال حداقل دما و تغییر آن برای حداکثر
[Activity] Running the Minimum Temperature Example, and Modifying it for Maximum
[فعالیت] شمارش کلمات با استفاده از Flatmap()
[Activity] Counting Word Occurrences using Flatmap()
[فعالیت] بهبود اسکریپت تعداد کلمات با عبارات منظم
[Activity] Improving the Word Count Script with Regular Expressions
[فعالیت] مرتب سازی نتایج شمارش کلمات
[Activity] Sorting the Word Count Results
[تمرین] کل مبلغ خرج شده توسط مشتری را بیابید
[Exercise] Find the Total Amount Spent by Customer
[تمرین] نتایج خود را بررسی کنید، و آنها را بر اساس کل مبلغ صرف شده مرتب کنید
[Exercise] Check your Results, and Sort Them by Total Amount Spent
نتایج و اجرای خود را در مقابل من بررسی کنید
Check Your Results and Implementation Against Mine
امتحان: RDD
Quiz: RDD's
SparkSQL، DataFrames و DataSets
SparkSQL, DataFrames, and DataSets
مقدمه ای بر SparkSQL
Introduction to SparkSQL
[فعالیت] با استفاده از SparkSQL
[Activity] Using SparkSQL
[فعالیت] استفاده از DataSets
[Activity] Using DataSets
[تمرین] مثال «دوستان بر اساس سن» را با استفاده از DataSets اجرا کنید
[Exercise] Implement the "Friends by Age" example using DataSets
راه حل تمرین: دوستان بر اساس سن، با مجموعه داده ها.
Exercise Solution: Friends by Age, with Datasets.
[فعالیت] مثال تعداد کلمات، با استفاده از مجموعه داده ها
[Activity] Word Count example, using Datasets
[فعالیت] بازبینی مثال حداقل دما، با مجموعه داده ها
[Activity] Revisiting the Minimum Temperature example, with Datasets
[تمرین] مسئله «کل خرج شده توسط مشتری» را با Datasets پیاده کنید
[Exercise] Implement the "Total Spent by Customer" problem with Datasets
راه حل تمرین: کل هزینه شده توسط مشتری با مجموعه داده ها
Exercise Solution: Total Spent by Customer with Datasets
آزمون: SparkSQL
Quiz: SparkSQL
SparkSQL، DataFrames و DataSets
SparkSQL, DataFrames, and DataSets
مقدمه ای بر SparkSQL
Introduction to SparkSQL
[فعالیت] با استفاده از SparkSQL
[Activity] Using SparkSQL
[فعالیت] استفاده از DataSets
[Activity] Using DataSets
[تمرین] مثال «دوستان بر اساس سن» را با استفاده از DataSets اجرا کنید
[Exercise] Implement the "Friends by Age" example using DataSets
راه حل تمرین: دوستان بر اساس سن، با مجموعه داده ها.
Exercise Solution: Friends by Age, with Datasets.
[فعالیت] مثال تعداد کلمات، با استفاده از مجموعه داده ها
[Activity] Word Count example, using Datasets
[فعالیت] بازبینی مثال حداقل دما، با مجموعه داده ها
[Activity] Revisiting the Minimum Temperature example, with Datasets
[تمرین] مسئله «کل خرج شده توسط مشتری» را با Datasets پیاده کنید
[Exercise] Implement the "Total Spent by Customer" problem with Datasets
راه حل تمرین: کل هزینه شده توسط مشتری با مجموعه داده ها
Exercise Solution: Total Spent by Customer with Datasets
آزمون: SparkSQL
Quiz: SparkSQL
نمونه های پیشرفته از برنامه های Spark
Advanced Examples of Spark Programs
[فعالیت] محبوب ترین فیلم را پیدا کنید
[Activity] Find the Most Popular Movie
[فعالیت] از متغیرهای پخش برای نمایش نام فیلم استفاده کنید
[Activity] Use Broadcast Variables to Display Movie Names
[فعالیت] محبوب ترین ابرقهرمان را در نمودار اجتماعی پیدا کنید
[Activity] Find the Most Popular Superhero in a Social Graph
[تمرین] مبهم ترین ابرقهرمانان را پیدا کنید
[Exercise] Find the Most Obscure Superheroes
راه حل تمرین: مبهم ترین ابرقهرمانان را پیدا کنید
Exercise Solution: Find the Most Obscure Superheroes
درجات جدایی ابرقهرمانی: معرفی جستجوی عرض-اول
Superhero Degrees of Separation: Introducing Breadth-First Search
درجات جدایی ابرقهرمانی: انباشتهکنندهها و پیادهسازی BFS در اسپارک
Superhero Degrees of Separation: Accumulators, and Implementing BFS in Spark
[فعالیت] درجات جدایی ابرقهرمانی: کد را مرور کنید و آن را اجرا کنید!
[Activity] Superhero Degrees of Separation: Review the code, and run it!
فیلتر مشارکتی مبتنی بر آیتم در Spark، cache() و persist()
Item-Based Collaborative Filtering in Spark, cache(), and persist()
[فعالیت] اجرای اسکریپت فیلم های مشابه با استفاده از Spark's Cluster Manager
[Activity] Running the Similar Movies Script using Spark's Cluster Manager
[تمرین] کیفیت فیلم های مشابه را بهبود بخشید
[Exercise] Improve the Quality of Similar Movies
نمونه های پیشرفته از برنامه های Spark
Advanced Examples of Spark Programs
[فعالیت] محبوب ترین فیلم را پیدا کنید
[Activity] Find the Most Popular Movie
[فعالیت] از متغیرهای پخش برای نمایش نام فیلم استفاده کنید
[Activity] Use Broadcast Variables to Display Movie Names
[فعالیت] محبوب ترین ابرقهرمان را در نمودار اجتماعی پیدا کنید
[Activity] Find the Most Popular Superhero in a Social Graph
[تمرین] مبهم ترین ابرقهرمانان را پیدا کنید
[Exercise] Find the Most Obscure Superheroes
راه حل تمرین: مبهم ترین ابرقهرمانان را پیدا کنید
Exercise Solution: Find the Most Obscure Superheroes
درجات جدایی ابرقهرمانی: معرفی جستجوی عرض-اول
Superhero Degrees of Separation: Introducing Breadth-First Search
درجات جدایی ابرقهرمانی: انباشتهکنندهها و پیادهسازی BFS در اسپارک
Superhero Degrees of Separation: Accumulators, and Implementing BFS in Spark
[فعالیت] درجات جدایی ابرقهرمانی: کد را مرور کنید و آن را اجرا کنید!
[Activity] Superhero Degrees of Separation: Review the code, and run it!
فیلتر مشارکتی مبتنی بر آیتم در Spark، cache() و persist()
Item-Based Collaborative Filtering in Spark, cache(), and persist()
[فعالیت] اجرای اسکریپت فیلم های مشابه با استفاده از Spark's Cluster Manager
[Activity] Running the Similar Movies Script using Spark's Cluster Manager
[تمرین] کیفیت فیلم های مشابه را بهبود بخشید
[Exercise] Improve the Quality of Similar Movies
در حال اجرا جرقه در یک خوشه
Running Spark on a Cluster
[فعالیت] استفاده از spark-submit برای اجرای اسکریپتهای درایور Spark
[Activity] Using spark-submit to run Spark driver scripts
[فعالیت] بسته بندی اسکریپت های درایور با SBT
[Activity] Packaging driver scripts with SBT
[تمرین] یک اسکریپت را با SBT بسته بندی کنید و آن را به صورت محلی با spark-submit اجرا کنید
[Exercise] Package a Script with SBT and Run it Locally with spark-submit
راه حل تمرین: با استفاده از SBT و spark-submit
Exercise solution: Using SBT and spark-submit
ایجاد فیلم های مشابه از یک میلیون رتبه در EMR
Creating Similar Movies from One Million Ratings on EMR
پارتیشن بندی
Partitioning
بهترین تمرین ها برای دویدن روی یک خوشه
Best Practices for Running on a Cluster
عیب یابی و مدیریت وابستگی ها
Troubleshooting, and Managing Dependencies
مسابقه: جرقه در یک خوشه
Quiz: Spark on a Cluster
در حال اجرا جرقه در یک خوشه
Running Spark on a Cluster
[فعالیت] استفاده از spark-submit برای اجرای اسکریپتهای درایور Spark
[Activity] Using spark-submit to run Spark driver scripts
[فعالیت] بسته بندی اسکریپت های درایور با SBT
[Activity] Packaging driver scripts with SBT
[تمرین] یک اسکریپت را با SBT بسته بندی کنید و آن را به صورت محلی با spark-submit اجرا کنید
[Exercise] Package a Script with SBT and Run it Locally with spark-submit
راه حل تمرین: با استفاده از SBT و spark-submit
Exercise solution: Using SBT and spark-submit
فرانک 9 سال را در آمازون و IMDb گذراند و فناوری را توسعه و مدیریت کرد که به طور خودکار توصیه های محصول و فیلم را به صدها میلیون مشتری ارائه می دهد. زمان. فرانک دارای 17 حق ثبت اختراع صادر شده در زمینه های محاسبات توزیع شده ، داده کاوی و یادگیری ماشین است. در سال 2012، فرانک شرکت موفق خود را به نام Sundog Software راه اندازی کرد که بر فناوری محیط واقعیت مجازی تمرکز دارد و به دیگران در مورد تجزیه و تحلیل داده های بزرگ آموزش می دهد.
بنیانگذار ، آموزش Sundog. یادگیری ماشینی ماموریت ProSundog Education این است که مهارتهای شغلی بسیار ارزشمندی را در داده های بزرگ ، علوم داده و یادگیری ماشینی در دسترس همه افراد در جهان قرار دهد. کنسرسیوم مربیان متخصص ما ، دانش ما را در این زمینه های نوظهور با قیمت هایی که هرکس می تواند تحمل کند ، در اختیار شما قرار می دهد.
Sundog Education توسط فرانک کین هدایت می شود و متعلق به شرکت فرانک ، Sundog Software LLC است. فرانک 9 سال را در آمازون و IMDb سپری کرد و فناوری را توسعه داد و به طور مداوم توصیه های محصول و فیلم را به صدها میلیون مشتری ارائه داد. فرانک دارای 17 اختراع ثبت شده در زمینه محاسبات توزیع شده ، داده کاوی و یادگیری ماشین است. در سال 2012 ، فرانك رفت و شركت موفق خود ، Sundog Software را كه متمركز بر فناوري محيط واقعيت مجازي است و به ديگران در مورد تجزيه و تحليل داده هاي بزرگ مي پردازد ، راه اندازي كرد.
با توجه به تعداد دانشجویان ما قادر به پاسخگویی به پیامهای خصوصی نیستیم. لطفا سوالات خود را در پرسش و پاسخ دوره خود ارسال کنید. ممنون از اینکه میفهمی.
نمایش نظرات