آموزش از 0 تا 1: Spark for Data Science با پایتون

From 0 to 1 : Spark for Data Science with Python

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: با استفاده از Spark برای تجزیه و تحلیل، یادگیری ماشین و علم داده، داده‌های خود را به پرواز در آورید. از Spark برای انواع تحلیل‌ها و وظایف یادگیری ماشینی استفاده کنید. الگوریتم‌های پیچیده‌ای مانند رتبه صفحه یا توصیه‌های موسیقی کار با مجموعه داده‌های مختلفی از تاخیر خطوط هوایی گرفته تا توییتر، نمودارهای وب، شبکه‌های اجتماعی و رتبه‌بندی محصولات از تمام ویژگی‌ها و کتابخانه‌های مختلف Spark استفاده می‌کنند: RDD، Dataframe، Spark SQL، MLlib، Spark Streaming و GraphX ​​پیش نیازها: این دوره به دانش پایتون نیاز دارد. می توانید کد پایتون را مستقیماً در پوسته PySpark بنویسید. اگر قبلاً نوت‌بوک IPython را نصب کرده‌اید، به شما نشان می‌دهیم که چگونه آن را برای Spark For بخش جاوا پیکربندی کنید، ما دانش پایه جاوا را فرض می‌کنیم. یک IDE که از Maven پشتیبانی می کند، مانند IntelliJ IDEA/Eclipse مفید خواهد بود. همه نمونه ها با یا بدون Hadoop کار می کنند. اگر می‌خواهید از Spark با Hadoop استفاده کنید، باید Hadoop را نصب کنید (چه در حالت شبه توزیع یا خوشه).

توسط  یک تیم 4 نفره شامل 2 تحصیلات دانشگاه استنفورد، Googler سابق  و 2 تحلیلگر ارشد سابق Flipkart تدریس می‌شود. این تیم چندین دهه تجربه عملی در کار با جاوا و با میلیاردها ردیف داده دارد.

با استفاده از Spark برای تجزیه و تحلیل، یادگیری ماشین و علم داده، داده‌های خود را به پرواز درآورید 

بیایید آن را تجزیه کنیم.

اسپارک چیست؟ اگر یک تحلیلگر یا یک دانشمند داده هستید، به داشتن چندین سیستم برای کار با داده ها عادت کرده اید. SQL، Python، R، جاوا و غیره با Spark، شما یک موتور واحد دارید که می توانید در آن حجم زیادی از داده ها را کاوش و بازی کنید، الگوریتم های یادگیری ماشین را اجرا کنید و سپس از همان سیستم برای تولید کد خود استفاده کنید.

تجزیه و تحلیل:  با استفاده از Spark و Python می توانید داده های خود را در یک محیط تعاملی با بازخورد سریع تجزیه و تحلیل و کاوش کنید. این دوره نشان می دهد که چگونه می توان از قدرت RDD ها و Dataframe ها برای دستکاری آسان داده ها استفاده کرد.

یادگیری ماشین و علم داده :  عملکرد اصلی Spark و کتابخانه‌های داخلی اجرای الگوریتم‌های پیچیده مانند توصیه‌ها را با خطوط بسیار کمی کد آسان می‌کند. مجموعه‌های داده و الگوریتم‌های مختلفی از جمله PageRank، MapReduce و Graph را پوشش خواهیم داد.

موارد تحت پوشش:

چیزهای جالب زیادی ..

  • توصیه های موسیقی با استفاده از حداقل مربعات متناوب و مجموعه داده Audioscrobbler
  • Dataframes و Spark SQL برای کار با داده های Twitter
  • استفاده از الگوریتم PageRank با مجموعه داده نمودار وب Google
  • استفاده از Spark Streaming برای پردازش جریان
  • کار با داده های نمودار با استفاده از مجموعه داده شبکه اجتماعی مارول



.. و البته تمام ویژگی های اولیه و پیشرفته Spark: 

  • مجموعه داده‌های توزیع‌شده انعطاف‌پذیر، تبدیل‌ها (نقشه، فیلتر، نقشه مسطح)، اقدامات (کاهش، تجمیع) 
  • RDD ها را جفت کنید، reduceByKey، combinationByKey 
  • متغیرهای Broadcast و Accumulator
  • Spark for MapReduce 
  • Java API برای Spark
  • Spark SQL، Spark Streaming، MLlib و GraphFrames (GraphX ​​برای Python) 

سرفصل ها و درس ها

شما، این دوره و ما You, This Course and Us

  • شما، این دوره و ما You, This Course and Us

  • شما، این دوره و ما You, This Course and Us

  • مواد درسی Course Materials

شما، این دوره و ما You, This Course and Us

  • مواد درسی Course Materials

مقدمه ای بر اسپارک Introduction to Spark

  • دونالد رامسفلد چه ربطی به تحلیل داده ها دارد؟ What does Donald Rumsfeld have to do with data analysis?

  • چرا اسپارک خیلی باحاله؟ Why is Spark so cool?

  • مقدمه ای بر RDDs - Resilient Distributed Datasets An introduction to RDDs - Resilient Distributed Datasets

  • مقدمه ای بر RDDs - Resilient Distributed Datasets An introduction to RDDs - Resilient Distributed Datasets

  • کتابخانه های داخلی برای Spark Built-in libraries for Spark

  • نصب اسپارک Installing Spark

  • پوسته PySpark The PySpark Shell

  • تحولات و اقدامات Transformations and Actions

  • آن را در عمل ببینید: Munging Airlines Data با PySpark - I See it in Action : Munging Airlines Data with PySpark - I

  • [برای مبتدیان شل سیستم عامل لینوکس/مک] مسیر و سایر متغیرهای محیطی [For Linux/Mac OS Shell Newbies] Path and other Environment Variables

مقدمه ای بر اسپارک Introduction to Spark

  • دونالد رامسفلد چه ربطی به تحلیل داده ها دارد؟ What does Donald Rumsfeld have to do with data analysis?

  • چرا اسپارک خیلی باحاله؟ Why is Spark so cool?

  • کتابخانه های داخلی برای Spark Built-in libraries for Spark

  • نصب اسپارک Installing Spark

  • پوسته PySpark The PySpark Shell

  • تحولات و اقدامات Transformations and Actions

  • آن را در عمل ببینید: Munging Airlines Data با PySpark - I See it in Action : Munging Airlines Data with PySpark - I

  • [برای مبتدیان شل سیستم عامل لینوکس/مک] مسیر و سایر متغیرهای محیطی [For Linux/Mac OS Shell Newbies] Path and other Environment Variables

مجموعه داده های توزیع شده انعطاف پذیر Resilient Distributed Datasets

  • ویژگی های RDD: پارتیشن ها و تغییرناپذیری RDD Characteristics: Partitions and Immutability

  • ویژگی های RDD: پارتیشن ها و تغییرناپذیری RDD Characteristics: Partitions and Immutability

  • ویژگی های RDD: نسب، RDD ها می دانند که از کجا آمده اند RDD Characteristics: Lineage, RDDs know where they came from

  • با RDD ها چه کاری می توانید انجام دهید؟ What can you do with RDDs?

  • با RDD ها چه کاری می توانید انجام دهید؟ What can you do with RDDs?

  • اولین RDD خود را از یک فایل ایجاد کنید Create your first RDD from a file

  • اولین RDD خود را از یک فایل ایجاد کنید Create your first RDD from a file

  • میانگین مسافت طی شده توسط یک پرواز با استفاده از عملیات map() و reduce(). Average distance travelled by a flight using map() and reduce() operations

  • دریافت پروازهای تاخیری با استفاده از filter()، داده های حافظه پنهان با استفاده از persist() Get delayed flights using filter(), cache data using persist()

  • میانگین تاخیر پرواز در یک مرحله با استفاده از aggregate() Average flight delay in one-step using aggregate()

  • هیستوگرام فرکانس تاخیرها با استفاده از countByValue() Frequency histogram of delays using countByValue()

  • هیستوگرام فرکانس تاخیرها با استفاده از countByValue() Frequency histogram of delays using countByValue()

  • آن را در عمل ببینید: تجزیه و تحلیل داده های خطوط هوایی با PySpark - II See it in Action : Analyzing Airlines Data with PySpark - II

مجموعه داده های توزیع شده انعطاف پذیر Resilient Distributed Datasets

  • ویژگی های RDD: نسب، RDD ها می دانند که از کجا آمده اند RDD Characteristics: Lineage, RDDs know where they came from

  • میانگین مسافت طی شده توسط یک پرواز با استفاده از عملیات map() و reduce(). Average distance travelled by a flight using map() and reduce() operations

  • دریافت پروازهای تاخیری با استفاده از filter()، داده های حافظه پنهان با استفاده از persist() Get delayed flights using filter(), cache data using persist()

  • میانگین تاخیر پرواز در یک مرحله با استفاده از aggregate() Average flight delay in one-step using aggregate()

  • آن را در عمل ببینید: تجزیه و تحلیل داده های خطوط هوایی با PySpark - II See it in Action : Analyzing Airlines Data with PySpark - II

RDD های پیشرفته: جفت مجموعه داده های توزیع شده انعطاف پذیر Advanced RDDs: Pair Resilient Distributed Datasets

  • تحولات و اقدامات ویژه Special Transformations and Actions

  • تحولات و اقدامات ویژه Special Transformations and Actions

  • میانگین تاخیر در هر فرودگاه، از ()reducByKey، mapValues() و join() استفاده کنید Average delay per airport, use reduceByKey(), mapValues() and join()

  • میانگین تاخیر در هر فرودگاه، از ()reducByKey، mapValues() و join() استفاده کنید Average delay per airport, use reduceByKey(), mapValues() and join()

  • میانگین تاخیر در هر فرودگاه در یک مرحله با استفاده از ()combinbyKey Average delay per airport in one step using combineByKey()

  • میانگین تاخیر در هر فرودگاه در یک مرحله با استفاده از ()combinbyKey Average delay per airport in one step using combineByKey()

  • با استفاده از sortBy() فرودگاه های برتر را با تاخیر دریافت کنید Get the top airports by delay using sortBy()

  • با استفاده از sortBy() فرودگاه های برتر را با تاخیر دریافت کنید Get the top airports by delay using sortBy()

  • جستجوی توضیحات فرودگاه با استفاده از lookup()، collectAsMap()، broadcast() Lookup airport descriptions using lookup(), collectAsMap(), broadcast()

  • آن را در عمل ببینید: تجزیه و تحلیل داده های خطوط هوایی با PySpark - III See it in Action : Analyzing Airlines Data with PySpark - III

  • آن را در عمل ببینید: تجزیه و تحلیل داده های خطوط هوایی با PySpark - III See it in Action : Analyzing Airlines Data with PySpark - III

RDD های پیشرفته: جفت مجموعه داده های توزیع شده انعطاف پذیر Advanced RDDs: Pair Resilient Distributed Datasets

  • جستجوی توضیحات فرودگاه با استفاده از lookup()، collectAsMap()، broadcast() Lookup airport descriptions using lookup(), collectAsMap(), broadcast()

Advanced Spark: Accumulators، Spark Submit، MapReduce، پشت صحنه Advanced Spark: Accumulators, Spark Submit, MapReduce , Behind The Scenes

  • دریافت اطلاعات از گره های پردازش فردی با استفاده از انباشته کننده ها Get information from individual processing nodes using accumulators

  • آن را در Action ببینید: با استفاده از یک متغیر Accumulator See it in Action : Using an Accumulator variable

  • آن را در Action ببینید: با استفاده از یک متغیر Accumulator See it in Action : Using an Accumulator variable

  • برنامه های طولانی در حال اجرا با استفاده از spark-submit Long running programs using spark-submit

  • آن را در عمل ببینید: اجرای یک اسکریپت پایتون با Spark-Submit See it in Action : Running a Python script with Spark-Submit

  • پشت صحنه: وقتی یک فیلمنامه Spark اجرا می شود چه اتفاقی می افتد؟ Behind the scenes: What happens when a Spark script runs?

  • اجرای عملیات MapReduce Running MapReduce operations

  • اجرای عملیات MapReduce Running MapReduce operations

  • آن را در عمل ببینید: MapReduce با Spark See it in Action : MapReduce with Spark

Advanced Spark: Accumulators، Spark Submit، MapReduce، پشت صحنه Advanced Spark: Accumulators, Spark Submit, MapReduce , Behind The Scenes

  • دریافت اطلاعات از گره های پردازش فردی با استفاده از انباشته کننده ها Get information from individual processing nodes using accumulators

  • برنامه های طولانی در حال اجرا با استفاده از spark-submit Long running programs using spark-submit

  • آن را در عمل ببینید: اجرای یک اسکریپت پایتون با Spark-Submit See it in Action : Running a Python script with Spark-Submit

  • پشت صحنه: وقتی یک فیلمنامه Spark اجرا می شود چه اتفاقی می افتد؟ Behind the scenes: What happens when a Spark script runs?

  • آن را در عمل ببینید: MapReduce با Spark See it in Action : MapReduce with Spark

جاوا و اسپارک Java and Spark

  • جاوا API و اشیاء تابع The Java API and Function objects

  • RDD ها را در جاوا جفت کنید Pair RDDs in Java

  • RDD ها را در جاوا جفت کنید Pair RDDs in Java

  • اجرای کد جاوا Running Java code

  • نصب Maven Installing Maven

  • نصب Maven Installing Maven

  • آن را در عمل ببینید: اجرای Spark Job با جاوا See it in Action : Running a Spark Job with Java

جاوا و اسپارک Java and Spark

  • جاوا API و اشیاء تابع The Java API and Function objects

  • اجرای کد جاوا Running Java code

  • آن را در عمل ببینید: اجرای Spark Job با جاوا See it in Action : Running a Spark Job with Java

PageRank: رتبه بندی نتایج جستجو PageRank: Ranking Search Results

  • PageRank چیست؟ What is PageRank?

  • PageRank چیست؟ What is PageRank?

  • الگوریتم PageRank The PageRank algorithm

  • پیاده سازی PageRank در Spark Implement PageRank in Spark

  • پیاده سازی PageRank در Spark Implement PageRank in Spark

  • به بهینه سازی در PageRank با استفاده از پارتیشن بندی سفارشی بپیوندید Join optimization in PageRank using Custom Partitioning

  • اقدام: الگوریتم PageRank با استفاده از Spark See it Action : The PageRank algorithm using Spark

  • اقدام: الگوریتم PageRank با استفاده از Spark See it Action : The PageRank algorithm using Spark

PageRank: رتبه بندی نتایج جستجو PageRank: Ranking Search Results

  • الگوریتم PageRank The PageRank algorithm

  • به بهینه سازی در PageRank با استفاده از پارتیشن بندی سفارشی بپیوندید Join optimization in PageRank using Custom Partitioning

Spark SQL Spark SQL

  • فریم های داده: RDD + جداول Dataframes: RDDs + Tables

  • فریم های داده: RDD + جداول Dataframes: RDDs + Tables

  • آن را در Action ببینید: Dataframes و Spark SQL See it in Action : Dataframes and Spark SQL

Spark SQL Spark SQL

  • آن را در Action ببینید: Dataframes و Spark SQL See it in Action : Dataframes and Spark SQL

MLlib در Spark: یک موتور توصیه بسازید MLlib in Spark: Build a recommendations engine

  • الگوریتم های فیلتر مشترک Collaborative filtering algorithms

  • تحلیل عاملی نهفته با روش حداقل مربعات متناوب Latent Factor Analysis with the Alternating Least Squares method

  • توصیه های موسیقی با استفاده از مجموعه داده Audioscrobbler Music recommendations using the Audioscrobbler dataset

  • توصیه های موسیقی با استفاده از مجموعه داده Audioscrobbler Music recommendations using the Audioscrobbler dataset

  • پیاده سازی کد در Spark با استفاده از MLlib Implement code in Spark using MLlib

MLlib در Spark: یک موتور توصیه بسازید MLlib in Spark: Build a recommendations engine

  • الگوریتم های فیلتر مشترک Collaborative filtering algorithms

  • تحلیل عاملی نهفته با روش حداقل مربعات متناوب Latent Factor Analysis with the Alternating Least Squares method

  • پیاده سازی کد در Spark با استفاده از MLlib Implement code in Spark using MLlib

جریان جرقه Spark Streaming

  • مقدمه ای بر جریان Introduction to streaming

  • مقدمه ای بر جریان Introduction to streaming

  • اجرای پردازش جریان در Spark با استفاده از Dstreams Implement stream processing in Spark using Dstreams

  • اجرای پردازش جریان در Spark با استفاده از Dstreams Implement stream processing in Spark using Dstreams

  • تبدیل حالت با استفاده از پنجره های کشویی Stateful transformations using sliding windows

  • تبدیل حالت با استفاده از پنجره های کشویی Stateful transformations using sliding windows

  • آن را در Action: Spark Streaming ببینید See it in Action : Spark Streaming

جریان جرقه Spark Streaming

  • آن را در Action: Spark Streaming ببینید See it in Action : Spark Streaming

کتابخانه های نموداری Graph Libraries

  • شبکه اجتماعی مارول با استفاده از نمودارها The Marvel social network using Graphs

  • شبکه اجتماعی مارول با استفاده از نمودارها The Marvel social network using Graphs

کتابخانه های نموداری Graph Libraries

نمایش نظرات

آموزش از 0 تا 1: Spark for Data Science با پایتون
جزییات دوره
8.5 hours
54
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
8,117
4.3 از 5
دارد
دارد
دارد
Loony Corn
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Loony Corn Loony Corn

یک تیم سابق گوگل، استنفورد و فلیپ کارت