لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش رام کردن کلان داده با آپاچی اسپارک و پایتون - دست به کار شوید!
Taming Big Data with Apache Spark and Python - Hands On!
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
آموزش PySpark با بیش از 20 مثال عملی از تجزیه و تحلیل مجموعه داده های بزرگ در دسکتاپ یا Hadoop با پایتون! استفاده از DataFrames و Structured Streaming در Spark 3 از کتابخانه یادگیری ماشینی MLLib برای پاسخ دادن به سوالات رایج داده کاوی استفاده کنید بدانید که چگونه Spark Streaming به شما اجازه می دهد تا جریان های مداوم داده ها را در زمان واقعی پردازش کند. کار روی یک کلاستر با Hadoop YARN نصب و اجرای Apache Spark بر روی رایانه رومیزی یا روی یک خوشه از مجموعه داده های توزیع شده انعطاف پذیر Spark برای پردازش و تجزیه و تحلیل مجموعه داده های بزرگ در بسیاری از CPU ها استفاده کنید. SQL به شما امکان می دهد تا با داده های ساختاریافته کار کنید و کارهای بزرگ را که روی یک خوشه اجرا می شوند، تنظیم و عیب یابی کنید. این دوره از ویندوز استفاده می کند، اما کد نمونه روی لینوکس نیز به خوبی کار می کند. برخی از تجربه های قبلی برنامه نویسی یا اسکریپت نویسی. تجربه پایتون کمک زیادی به شما خواهد کرد، اما شما می توانید آن را در حین حرکت انتخاب کنید.
جدید! بهروزرسانی شده برای Spark 3، تمرینهای عملی بیشتر، و تمرکز قویتر بر DataFrames و Structured Streaming.
تجزیه و تحلیل «دادههای بزرگ» یک مهارت داغ و بسیار ارزشمند است – و این دوره به شما داغترین فناوری در دادههای بزرگ را آموزش میدهد: Apache Spark و به طور خاص PySpark. کارفرمایان از جمله Amazon، EBay، NASA JPL و Yahoo همگی از Spark برای به سرعت معنی را از مجموعه داده های عظیم در یک خوشه هدوپ مقاوم به خطا استخراج کنید. شما همان تکنیک ها را با استفاده از سیستم ویندوز خود در خانه یاد خواهید گرفت. این ساده تر از چیزی است که فکر می کنید.
در بیش از 20 مثال عملی، هنر قاب بندی مسائل تجزیه و تحلیل داده ها را به عنوان مشکلات Spark یاد بگیرید و به آنها مسلط شوید و سپس آنها را برای اجرای خدمات رایانش ابری در این دوره، مقیاس دهید. شما از یک مهندس سابق و مدیر ارشد از آمازون و IMDb یاد خواهید گرفت.
مفاهیم DataFrames Spark و Resilient Distributed Datastores را بیاموزید
کارهای Spark را به سرعت با استفاده از Python و pyspark توسعه و اجرا کنید
مسائل تحلیل پیچیده را به اسکریپت های Spark تکراری یا چند مرحله ای ترجمه کنید
با استفاده از سرویس Elastic MapReduce آمازون، مجموعه دادههای بزرگتر را افزایش دهید
دریابید که Hadoop YARN چگونه Spark را در میان خوشههای محاسباتی توزیع میکند
درباره سایر فناوریهای Spark، مانند Spark SQL، Spark Streaming و GraphX بیاموزید
در پایان این دوره، کدی را اجرا خواهید کرد که در عرض چند دقیقه، اطلاعاتی به ارزش گیگابایت را - در فضای ابری - تجزیه و تحلیل میکند.
این دوره از زبان برنامه نویسی آشنای پایتون استفاده می کند. اگر ترجیح می دهید از Scala برای دریافت بهترین عملکرد Spark استفاده کنید، به جای آن دوره آموزشی "Apache Spark with Scala - Hands On with Big Data" را ببینید.
در طول راه کمی سرگرم خواهیم شد. با چند مثال ساده از استفاده از Spark برای تجزیه و تحلیل دادههای رتبهبندی فیلم و متن در یک کتاب، گرم میشوید. زمانی که اصول اولیه را در دست گرفتید، به سراغ کارهای پیچیده و جالب تر می رویم. ما از یک میلیون رتبهبندی فیلم برای یافتن فیلمهایی که شبیه یکدیگر هستند استفاده میکنیم، و حتی ممکن است در این فرآیند فیلمهای جدیدی را که ممکن است دوست داشته باشید کشف کنید! ما یک نمودار اجتماعی از ابرقهرمانان را تجزیه و تحلیل خواهیم کرد و خواهیم فهمید که "محبوب ترین" ابرقهرمان کیست - و سیستمی برای یافتن "درجات جدایی" بین ابرقهرمانان ایجاد می کنیم. آیا همه ابرقهرمانان مارول در فاصله چند درجه ای از اتصال به هالک شگفت انگیز هستند؟ پاسخ را خواهید یافت.
این دوره بسیار کاربردی است. شما بیشتر وقت خود را صرف دنبال کردن با مربی خواهید کرد، زیرا ما با هم کد واقعی را می نویسیم، تجزیه و تحلیل می کنیم و اجرا می کنیم - هم در سیستم خود و هم در فضای ابری با استفاده از سرویس Elastic MapReduce آمازون. 7 ساعت محتوای ویدیویی گنجانده شده است، با بیش از 20 نمونه واقعی از افزایش پیچیدگی که می توانید خودتان بسازید، اجرا کنید و مطالعه کنید. با سرعت خود و بر اساس برنامه زمانی خود از آنها عبور کنید. این دوره با مروری بر سایر فناوریهای مبتنی بر Spark، از جمله Spark SQL، Spark Streaming و GraphX به پایان میرسد.
مشاهده کلان داده با Apache Spark یک مهارت مهم در دنیای فنی امروزی است. اکنون ثبت نام کنید!
"من "رام کردن داده های بزرگ با آپاچی اسپارک و پایتون" را با فرانک کین مطالعه کردم و به من کمک کرد تا یک پلتفرم عالی برای داده های بزرگ به عنوان یک سرویس برای شرکت خود بسازم. من این دوره را توصیه می کنم! " - Cleuton Sampaio De Melo Jr.
سرفصل ها و درس ها
شروع کار با Spark
Getting Started with Spark
معرفی
Introduction
نحوه استفاده از این دوره
How to Use This Course
Udemy 101: بیشترین بهره را از این دوره ببرید
Udemy 101: Getting the Most From This Course
یادداشت مهم
Important note
مهم! با این دوره از جاوا 16 استفاده نکنید
IMPORTANT! DO NOT USE JAVA 16 WITH THIS COURSE
[فعالیت] راه اندازی: نصب پایتون، JDK، Spark و وابستگی های آن.
[Activity]Getting Set Up: Installing Python, a JDK, Spark, and its Dependencies.
[فعالیت] نصب مجموعه داده رتبه بندی فیلم MovieLens
[Activity] Installing the MovieLens Movie Rating Dataset
[فعالیت] اولین برنامه Spark خود را اجرا کنید! نمونه هیستوگرام رتبه بندی
[Activity] Run your first Spark program! Ratings histogram example.
Spark Basics و رابط RDD
Spark Basics and the RDD Interface
چه چیزی در Spark 3 جدید است؟
What's new in Spark 3?
مقدمه ای بر اسپارک
Introduction to Spark
مجموعه داده های توزیع شده انعطاف پذیر (RDD)
The Resilient Distributed Dataset (RDD)
بررسی هیستوگرام رتبهبندی
Ratings Histogram Walkthrough
کلید/مقدار RDD و میانگین دوستان بر اساس سن مثال
Key/Value RDD's, and the Average Friends by Age Example
[فعالیت] اجرای میانگین دوستان بر اساس سن مثال
[Activity] Running the Average Friends by Age Example
فیلتر کردن RDDها و حداقل دما بر اساس مکان مثال
Filtering RDD's, and the Minimum Temperature by Location Example
[فعالیت] اجرای مثال حداقل دما و تغییر آن برای حداکثر
[Activity]Running the Minimum Temperature Example, and Modifying it for Maximums
[فعالیت] اجرای حداکثر دما بر اساس مکان مثال
[Activity] Running the Maximum Temperature by Location Example
[فعالیت] شمارش رخدادهای کلمه با استفاده از flatmap()
[Activity] Counting Word Occurrences using flatmap()
[فعالیت] بهبود اسکریپت تعداد کلمات با عبارات منظم
[Activity] Improving the Word Count Script with Regular Expressions
[فعالیت] مرتب سازی نتایج شمارش کلمات
[Activity] Sorting the Word Count Results
[تمرین] کل مبلغ خرج شده توسط مشتری را بیابید
[Exercise] Find the Total Amount Spent by Customer
[تمرین] نتایج خود را بررسی کنید، و اکنون آنها را بر اساس کل مبلغ خرج شده مرتب کنید.
[Excercise] Check your Results, and Now Sort them by Total Amount Spent.
اجرای مرتب شده و نتایج در مقابل من را بررسی کنید.
Check Your Sorted Implementation and Results Against Mine.
Spark Basics و رابط RDD
Spark Basics and the RDD Interface
چه چیزی در Spark 3 جدید است؟
What's new in Spark 3?
مقدمه ای بر اسپارک
Introduction to Spark
مجموعه داده های توزیع شده انعطاف پذیر (RDD)
The Resilient Distributed Dataset (RDD)
بررسی هیستوگرام رتبهبندی
Ratings Histogram Walkthrough
کلید/مقدار RDD و میانگین دوستان بر اساس سن مثال
Key/Value RDD's, and the Average Friends by Age Example
[فعالیت] اجرای میانگین دوستان بر اساس سن مثال
[Activity] Running the Average Friends by Age Example
فیلتر کردن RDDها و حداقل دما بر اساس مکان مثال
Filtering RDD's, and the Minimum Temperature by Location Example
[فعالیت] اجرای مثال حداقل دما و تغییر آن برای حداکثر
[Activity]Running the Minimum Temperature Example, and Modifying it for Maximums
[فعالیت] اجرای حداکثر دما بر اساس مکان مثال
[Activity] Running the Maximum Temperature by Location Example
[فعالیت] شمارش رخدادهای کلمه با استفاده از flatmap()
[Activity] Counting Word Occurrences using flatmap()
[فعالیت] بهبود اسکریپت تعداد کلمات با عبارات منظم
[Activity] Improving the Word Count Script with Regular Expressions
[فعالیت] مرتب سازی نتایج شمارش کلمات
[Activity] Sorting the Word Count Results
[تمرین] کل مبلغ خرج شده توسط مشتری را بیابید
[Exercise] Find the Total Amount Spent by Customer
[تمرین] نتایج خود را بررسی کنید، و اکنون آنها را بر اساس کل مبلغ خرج شده مرتب کنید.
[Excercise] Check your Results, and Now Sort them by Total Amount Spent.
اجرای مرتب شده و نتایج در مقابل من را بررسی کنید.
Check Your Sorted Implementation and Results Against Mine.
SparkSQL، DataFrames و DataSets
SparkSQL, DataFrames, and DataSets
معرفی SparkSQL
Introducing SparkSQL
[فعالیت] اجرای دستورات SQL و توابع به سبک SQL در یک DataFrame
[Activity] Executing SQL commands and SQL-style functions on a DataFrame
استفاده از DataFrames به جای RDD
Using DataFrames instead of RDD's
[تمرین] دوستان بر اساس سن، با DataFrames
[Exercise] Friends by Age, with DataFrames
راه حل تمرین: دوستان بر اساس سن، با DataFrames
Exercise Solution: Friends by Age, with DataFrames
[فعالیت] تعداد کلمات، با DataFrames
[Activity] Word Count, with DataFrames
[فعالیت] حداقل دما، با DataFrames (با استفاده از یک طرح سفارشی)
[Activity] Minimum Temperature, with DataFrames (using a custom schema)
[تمرین] کل هزینه شده توسط مشتری را با DataFrames پیاده سازی کنید
[Exercise] Implement Total Spent by Customer with DataFrames
راه حل تمرین: کل هزینه شده توسط مشتری، با DataFrames
Exercise Solution: Total Spent by Customer, with DataFrames
SparkSQL، DataFrames و DataSets
SparkSQL, DataFrames, and DataSets
معرفی SparkSQL
Introducing SparkSQL
[فعالیت] اجرای دستورات SQL و توابع به سبک SQL در یک DataFrame
[Activity] Executing SQL commands and SQL-style functions on a DataFrame
استفاده از DataFrames به جای RDD
Using DataFrames instead of RDD's
[تمرین] دوستان بر اساس سن، با DataFrames
[Exercise] Friends by Age, with DataFrames
راه حل تمرین: دوستان بر اساس سن، با DataFrames
Exercise Solution: Friends by Age, with DataFrames
[فعالیت] تعداد کلمات، با DataFrames
[Activity] Word Count, with DataFrames
[فعالیت] حداقل دما، با DataFrames (با استفاده از یک طرح سفارشی)
[Activity] Minimum Temperature, with DataFrames (using a custom schema)
[تمرین] کل هزینه شده توسط مشتری را با DataFrames پیاده سازی کنید
[Exercise] Implement Total Spent by Customer with DataFrames
راه حل تمرین: کل هزینه شده توسط مشتری، با DataFrames
Exercise Solution: Total Spent by Customer, with DataFrames
نمونه های پیشرفته از برنامه های Spark
Advanced Examples of Spark Programs
[فعالیت] محبوب ترین فیلم را پیدا کنید
[Activity] Find the Most Popular Movie
[فعالیت] از متغیرهای پخش برای نمایش نام فیلم ها به جای شماره شناسه استفاده کنید
[Activity] Use Broadcast Variables to Display Movie Names Instead of ID Numbers
محبوب ترین ابرقهرمان را در نمودار اجتماعی پیدا کنید
Find the Most Popular Superhero in a Social Graph
[فعالیت] اسکریپت را اجرا کنید - کشف کنید محبوب ترین ابرقهرمان کیست!
[Activity] Run the Script - Discover Who the Most Popular Superhero is!
[تمرین] مبهم ترین ابرقهرمانان را پیدا کنید
[Exercise] Find the Most Obscure Superheroes
راه حل تمرین: مبهم ترین ابرقهرمانان
Exercise Solution: Most Obscure Superheroes
درجات جدایی ابرقهرمانی: معرفی جستجوی عرض-اول
Superhero Degrees of Separation: Introducing Breadth-First Search
درجات جدایی ابرقهرمانی: انباشتهکنندهها و پیادهسازی BFS در اسپارک
Superhero Degrees of Separation: Accumulators, and Implementing BFS in Spark
[فعالیت] درجات جدایی ابرقهرمانی: کد را مرور کنید و آن را اجرا کنید
[Activity] Superhero Degrees of Separation: Review the Code and Run it
فیلتر مشارکتی مبتنی بر آیتم در Spark، cache() و persist()
Item-Based Collaborative Filtering in Spark, cache(), and persist()
[فعالیت] اجرای اسکریپت فیلم های مشابه با استفاده از Spark's Cluster Manager
[Activity] Running the Similar Movies Script using Spark's Cluster Manager
[تمرین] کیفیت فیلم های مشابه را بهبود بخشید
[Exercise] Improve the Quality of Similar Movies
نمونه های پیشرفته از برنامه های Spark
Advanced Examples of Spark Programs
[فعالیت] محبوب ترین فیلم را پیدا کنید
[Activity] Find the Most Popular Movie
[فعالیت] از متغیرهای پخش برای نمایش نام فیلم ها به جای شماره شناسه استفاده کنید
[Activity] Use Broadcast Variables to Display Movie Names Instead of ID Numbers
محبوب ترین ابرقهرمان را در نمودار اجتماعی پیدا کنید
Find the Most Popular Superhero in a Social Graph
[فعالیت] اسکریپت را اجرا کنید - کشف کنید محبوب ترین ابرقهرمان کیست!
[Activity] Run the Script - Discover Who the Most Popular Superhero is!
[تمرین] مبهم ترین ابرقهرمانان را پیدا کنید
[Exercise] Find the Most Obscure Superheroes
راه حل تمرین: مبهم ترین ابرقهرمانان
Exercise Solution: Most Obscure Superheroes
درجات جدایی ابرقهرمانی: معرفی جستجوی عرض-اول
Superhero Degrees of Separation: Introducing Breadth-First Search
درجات جدایی ابرقهرمانی: انباشتهکنندهها و پیادهسازی BFS در اسپارک
Superhero Degrees of Separation: Accumulators, and Implementing BFS in Spark
[فعالیت] درجات جدایی ابرقهرمانی: کد را مرور کنید و آن را اجرا کنید
[Activity] Superhero Degrees of Separation: Review the Code and Run it
فیلتر مشارکتی مبتنی بر آیتم در Spark، cache() و persist()
Item-Based Collaborative Filtering in Spark, cache(), and persist()
[فعالیت] اجرای اسکریپت فیلم های مشابه با استفاده از Spark's Cluster Manager
[Activity] Running the Similar Movies Script using Spark's Cluster Manager
[تمرین] کیفیت فیلم های مشابه را بهبود بخشید
[Exercise] Improve the Quality of Similar Movies
در حال اجرا جرقه در یک خوشه
Running Spark on a Cluster
[Activity] راهاندازی حساب AWS/Elastic MapReduce و راهاندازی PuTTY
[Activity] Setting up your AWS / Elastic MapReduce Account and Setting Up PuTTY
پارتیشن بندی
Partitioning
ایجاد فیلم های مشابه از یک میلیون رتبه - قسمت 1
Create Similar Movies from One Million Ratings - Part 1
[فعالیت] ساخت فیلم های مشابه از یک میلیون رتبه - قسمت 2
[Activity] Create Similar Movies from One Million Ratings - Part 2
ایجاد فیلم های مشابه از یک میلیون رتبه - قسمت 3
Create Similar Movies from One Million Ratings - Part 3
عیب یابی Spark on a Cluster
Troubleshooting Spark on a Cluster
عیب یابی بیشتر و مدیریت وابستگی ها
More Troubleshooting, and Managing Dependencies
یادگیری ماشین با Spark ML
Machine Learning with Spark ML
معرفی MLLib
Introducing MLLib
[فعالیت] استفاده از Spark ML برای تولید توصیههای فیلم
[Activity] Using Spark ML to Produce Movie Recommendations
تجزیه و تحلیل نتایج توصیه های ALS
Analyzing the ALS Recommendations Results
[فعالیت] رگرسیون خطی با Spark ML
[Activity] Linear Regression with Spark ML
[تمرین] استفاده از درختان تصمیم در Spark ML برای پیش بینی قیمت املاک و مستغلات
[Exercise] Using Decision Trees in Spark ML to Predict Real Estate Prices
راه حل تمرین: درختان تصمیم با جرقه
Exercise Solution: Decision Trees with Spark
یادگیری ماشین با Spark ML
Machine Learning with Spark ML
معرفی MLLib
Introducing MLLib
[فعالیت] استفاده از Spark ML برای تولید توصیههای فیلم
[Activity] Using Spark ML to Produce Movie Recommendations
تجزیه و تحلیل نتایج توصیه های ALS
Analyzing the ALS Recommendations Results
[فعالیت] رگرسیون خطی با Spark ML
[Activity] Linear Regression with Spark ML
[تمرین] استفاده از درختان تصمیم در Spark ML برای پیش بینی قیمت املاک و مستغلات
[Exercise] Using Decision Trees in Spark ML to Predict Real Estate Prices
راه حل تمرین: درختان تصمیم با جرقه
Exercise Solution: Decision Trees with Spark
Spark Streaming، Structured Streaming و GraphX
Spark Streaming, Structured Streaming, and GraphX
جریان جرقه
Spark Streaming
[فعالیت] جریان ساخت یافته در پایتون
[Activity] Structured Streaming in Python
[تمرین] برای ردیابی URL های پربازدید از ویندوز با جریان ساخت یافته استفاده کنید
[Exercise] Use Windows with Structured Streaming to Track Most-Viewed URL's
راه حل تمرین: استفاده از جریان ساخت یافته با ویندوز
Exercise Solution: Using Structured Streaming with Windows
GraphX
GraphX
Spark Streaming، Structured Streaming و GraphX
Spark Streaming, Structured Streaming, and GraphX
جریان جرقه
Spark Streaming
[فعالیت] جریان ساخت یافته در پایتون
[Activity] Structured Streaming in Python
[تمرین] برای ردیابی URL های پربازدید از ویندوز با جریان ساخت یافته استفاده کنید
[Exercise] Use Windows with Structured Streaming to Track Most-Viewed URL's
راه حل تمرین: استفاده از جریان ساخت یافته با ویندوز
Exercise Solution: Using Structured Streaming with Windows
GraphX
GraphX
تو موفق شدی! از اینجا کجا برویم
You Made It! Where to Go from Here.
درباره Spark و Data Science بیشتر بدانید
Learning More about Spark and Data Science
سخنرانی جایزه: دوره های بیشتری برای کشف!
Bonus Lecture: More courses to explore!
تو موفق شدی! از اینجا کجا برویم
You Made It! Where to Go from Here.
درباره Spark و Data Science بیشتر بدانید
Learning More about Spark and Data Science
سخنرانی جایزه: دوره های بیشتری برای کشف!
Bonus Lecture: More courses to explore!
فرانک 9 سال را در آمازون و IMDb گذراند و فناوری را توسعه و مدیریت کرد که به طور خودکار توصیه های محصول و فیلم را به صدها میلیون مشتری ارائه می دهد. زمان. فرانک دارای 17 حق ثبت اختراع صادر شده در زمینه های محاسبات توزیع شده ، داده کاوی و یادگیری ماشین است. در سال 2012، فرانک شرکت موفق خود را به نام Sundog Software راه اندازی کرد که بر فناوری محیط واقعیت مجازی تمرکز دارد و به دیگران در مورد تجزیه و تحلیل داده های بزرگ آموزش می دهد.
بنیانگذار ، آموزش Sundog. یادگیری ماشینی ماموریت ProSundog Education این است که مهارتهای شغلی بسیار ارزشمندی را در داده های بزرگ ، علوم داده و یادگیری ماشینی در دسترس همه افراد در جهان قرار دهد. کنسرسیوم مربیان متخصص ما ، دانش ما را در این زمینه های نوظهور با قیمت هایی که هرکس می تواند تحمل کند ، در اختیار شما قرار می دهد.
Sundog Education توسط فرانک کین هدایت می شود و متعلق به شرکت فرانک ، Sundog Software LLC است. فرانک 9 سال را در آمازون و IMDb سپری کرد و فناوری را توسعه داد و به طور مداوم توصیه های محصول و فیلم را به صدها میلیون مشتری ارائه داد. فرانک دارای 17 اختراع ثبت شده در زمینه محاسبات توزیع شده ، داده کاوی و یادگیری ماشین است. در سال 2012 ، فرانك رفت و شركت موفق خود ، Sundog Software را كه متمركز بر فناوري محيط واقعيت مجازي است و به ديگران در مورد تجزيه و تحليل داده هاي بزرگ مي پردازد ، راه اندازي كرد.
با توجه به تعداد دانشجویان ما قادر به پاسخگویی به پیامهای خصوصی نیستیم. لطفا سوالات خود را در پرسش و پاسخ دوره خود ارسال کنید. ممنون از اینکه میفهمی.
نمایش نظرات