آموزش از صفر تا یک: اسپارک برای علم داده با پایتون - آخرین آپدیت

دانلود From 0 to 1 : Spark for Data Science with Python

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

تحلیل داده با اسپارک: یادگیری ماشین، علم داده و تحلیل

داده‌های خود را با اسپارک برای تحلیل، یادگیری ماشین و علم داده به پرواز درآورید.

از اسپارک برای طیف وسیعی از وظایف تحلیلی و یادگیری ماشین استفاده کنید. الگوریتم‌های پیچیده‌ای مانند PageRank یا توصیه‌گر موسیقی را پیاده‌سازی کنید. با مجموعه داده‌های متنوعی از تاخیر پروازها گرفته تا توییتر، گراف‌های وب، شبکه‌های اجتماعی و رتبه‌بندی محصولات کار کنید. از تمام ویژگی‌ها و کتابخانه‌های مختلف اسپارک بهره ببرید: RDDها، DataFrameها، Spark SQL، MLlib، Spark Streaming و GraphX.

پیش‌نیازها

این دوره فرض می‌کند شما با پایتون آشنایی دارید. می‌توانید مستقیماً در محیط PySpark کد پایتون را اجرا کنید. اگر IPython Notebook را نصب دارید، نحوه پیکربندی آن برای اسپارک را به شما نشان خواهیم داد.

برای بخش جاوا، فرض ما دانش پایه‌ای از جاوا است. یک IDE که از Maven پشتیبانی می‌کند، مانند IntelliJ IDEA/Eclipse، مفید خواهد بود.

تمام مثال‌ها با یا بدون هادوپ کار می‌کنند. اگر می‌خواهید از اسپارک با هادوپ استفاده کنید، نیاز به نصب هادوپ (در حالت شبه-توزیع شده یا کلاستر) خواهید داشت.

تدریس شده توسط:

تیمی متشکل از 4 نفر، شامل 2 فارغ‌التحصیل استنفورد و کارمندان سابق گوگل، و 2 تحلیلگر ارشد سابق فلیپ‌کارت. این تیم دهه‌ها تجربه عملی در کار با جاوا و میلیاردها ردیف داده دارد.

اسپارک چیست؟

اگر یک تحلیلگر یا دانشمند داده هستید، به استفاده از سیستم‌های متعدد برای کار با داده عادت دارید: SQL، پایتون، R، جاوا و غیره. با اسپارک، شما یک موتور واحد دارید که در آن می‌توانید حجم عظیمی از داده‌ها را کاوش کرده و با آن‌ها کار کنید، الگوریتم‌های یادگیری ماشین را اجرا کنید و سپس از همان سیستم برای تولید کد خود استفاده نمایید.

تحلیل داده با اسپارک

با استفاده از اسپارک و پایتون، می‌توانید داده‌های خود را در محیطی تعاملی با بازخورد سریع تحلیل و کاوش کنید. این دوره نحوه بهره‌گیری از قدرت RDDها و DataFrameها برای دستکاری آسان داده‌ها را نشان می‌دهد.

یادگیری ماشین و علم داده با اسپارک

قابلیت‌های اصلی و کتابخانه‌های داخلی اسپارک، پیاده‌سازی الگوریتم‌های پیچیده مانند سیستم‌های توصیه‌گر را با خطوط کد بسیار کمی آسان می‌کند. ما مجموعه‌داده‌ها و الگوریتم‌های متنوعی از جمله PageRank، MapReduce و مجموعه داده‌های گراف را پوشش خواهیم داد.

محتوای دوره

مطالب جالب و کاربردی:

  • توصیه‌گر موسیقی با استفاده از روش حداقل مربعات متناوب (Alternating Least Squares) و مجموعه داده Audioscrobbler
  • DataFrameها و Spark SQL برای کار با داده‌های توییتر
  • استفاده از الگوریتم PageRank با مجموعه داده گراف وب گوگل
  • استفاده از Spark Streaming برای پردازش جریان داده
  • کار با داده‌های گراف با استفاده از مجموعه داده شبکه اجتماعی Marvel

و البته تمام ویژگی‌های پایه و پیشرفته اسپارک:

  • مجموعه‌های داده توزیع شده مقاوم (Resilient Distributed Datasets)، تبدیل‌ها (map، filter، flatMap)، عملیات (reduce، aggregate)
  • RDDهای جفتی (Pair RDDs)، reduceByKey، combineByKey
  • متغیرهای Broadcast و Accumulator
  • اسپارک برای MapReduce
  • API جاوا برای اسپارک
  • Spark SQL، Spark Streaming، MLlib و GraphFrames (GraphX برای پایتون)

سرفصل ها و درس ها

شما، این دوره و ما You, This Course and Us

  • مواد درسی Course Materials

شما، این دوره و ما You, This Course and Us

  • شما، این دوره و ما You, This Course and Us

  • شما، این دوره و ما You, This Course and Us

  • مواد دوره Course Materials

مقدمه ای بر Spark Introduction to Spark

  • دونالد رامسفلد چه ربطی به تحلیل داده ها دارد؟ What does Donald Rumsfeld have to do with data analysis?

  • چرا اسپارک خیلی باحاله؟ Why is Spark so cool?

  • کتابخانه های داخلی برای Spark Built-in libraries for Spark

  • نصب اسپارک Installing Spark

  • پوسته PySpark The PySpark Shell

  • تحولات و اقدامات Transformations and Actions

  • آن را در عمل ببینید: Munging Airlines Data با PySpark - I See it in Action : Munging Airlines Data with PySpark - I

  • [برای مبتدیان شل سیستم عامل لینوکس/مک] مسیر و سایر متغیرهای محیطی [For Linux/Mac OS Shell Newbies] Path and other Environment Variables

مقدمه ای بر اسپارک Introduction to Spark

  • دونالد رامسفلد چه ربطی به تجزیه و تحلیل داده ها دارد؟ What does Donald Rumsfeld have to do with data analysis?

  • چرا Spark اینقدر جذاب است؟ Why is Spark so cool?

  • مقدمه ای بر RDDs - Resilient Distributed Datasets An introduction to RDDs - Resilient Distributed Datasets

  • مقدمه ای بر RDD ها - مجموعه داده های توزیع شده انعطاف پذیر An introduction to RDDs - Resilient Distributed Datasets

  • کتابخانه های داخلی برای Spark Built-in libraries for Spark

  • نصب Spark Installing Spark

  • پوسته PySpark The PySpark Shell

  • تبدیلات و اقدامات Transformations and Actions

  • مشاهده در عمل: پاکسازی داده های ایرلاین ها با PySpark - بخش اول See it in Action : Munging Airlines Data with PySpark - I

  • [برای تازه کاران پوسته لینوکس/مک] مسیر و سایر متغیرهای محیطی [For Linux/Mac OS Shell Newbies] Path and other Environment Variables

مجموعه داده های توزیع شده انعطاف پذیر Resilient Distributed Datasets

  • ویژگی های RDD: نسب، RDD ها می دانند که از کجا آمده اند RDD Characteristics: Lineage, RDDs know where they came from

  • میانگین مسافت طی شده توسط یک پرواز با استفاده از عملیات map() و reduce(). Average distance travelled by a flight using map() and reduce() operations

  • دریافت پروازهای تاخیری با استفاده از filter()، داده های حافظه پنهان با استفاده از persist() Get delayed flights using filter(), cache data using persist()

  • میانگین تاخیر پرواز در یک مرحله با استفاده از aggregate() Average flight delay in one-step using aggregate()

  • آن را در عمل ببینید: تجزیه و تحلیل داده های خطوط هوایی با PySpark - II See it in Action : Analyzing Airlines Data with PySpark - II

مجموعه داده های توزیع شده انعطاف پذیر Resilient Distributed Datasets

  • ویژگی های RDD: پارتیشن ها و تغییرناپذیری RDD Characteristics: Partitions and Immutability

  • ویژگی های RDD: پارتیشن ها و تغییر ناپذیری RDD Characteristics: Partitions and Immutability

  • ویژگی های RDD: تبار، RDD ها می دانند از کجا آمده اند RDD Characteristics: Lineage, RDDs know where they came from

  • با RDD ها چه کاری می توانید انجام دهید؟ What can you do with RDDs?

  • با RDD ها چه کاری می توان انجام داد؟ What can you do with RDDs?

  • اولین RDD خود را از یک فایل ایجاد کنید Create your first RDD from a file

  • اولین RDD خود را از یک فایل ایجاد کنید Create your first RDD from a file

  • میانگین مسافت طی شده توسط یک پرواز با استفاده از عملیات map() و reduce() Average distance travelled by a flight using map() and reduce() operations

  • دریافت پروازهای با تاخیر با استفاده از filter()، کش کردن داده ها با استفاده از persist() Get delayed flights using filter(), cache data using persist()

  • میانگین تاخیر پرواز در یک مرحله با استفاده از aggregate() Average flight delay in one-step using aggregate()

  • هیستوگرام فراوانی تاخیرها با استفاده از countByValue() Frequency histogram of delays using countByValue()

  • هیستوگرام فرکانس تاخیرها با استفاده از countByValue() Frequency histogram of delays using countByValue()

  • مشاهده در عمل: تجزیه و تحلیل داده های ایرلاین ها با PySpark - بخش دوم See it in Action : Analyzing Airlines Data with PySpark - II

RDD های پیشرفته: مجموعه داده های زوجی توزیع شده انعطاف پذیر Advanced RDDs: Pair Resilient Distributed Datasets

  • جستجوی توضیحات فرودگاه با استفاده از lookup()، collectAsMap()، broadcast() Lookup airport descriptions using lookup(), collectAsMap(), broadcast()

RDD های پیشرفته: جفت مجموعه داده های توزیع شده انعطاف پذیر Advanced RDDs: Pair Resilient Distributed Datasets

  • تبدیلات و اقدامات ویژه Special Transformations and Actions

  • تحولات و اقدامات ویژه Special Transformations and Actions

  • میانگین تاخیر در هر فرودگاه، از ()reducByKey، mapValues() و join() استفاده کنید Average delay per airport, use reduceByKey(), mapValues() and join()

  • میانگین تاخیر در هر فرودگاه، استفاده از reduceByKey()، mapValues() و join() Average delay per airport, use reduceByKey(), mapValues() and join()

  • میانگین تاخیر در هر فرودگاه در یک مرحله با استفاده از ()combinbyKey Average delay per airport in one step using combineByKey()

  • میانگین تاخیر در هر فرودگاه در یک مرحله با استفاده از combineByKey() Average delay per airport in one step using combineByKey()

  • با استفاده از sortBy() فرودگاه های برتر را با تاخیر دریافت کنید Get the top airports by delay using sortBy()

  • دریافت فرودگاه های برتر بر اساس تاخیر با استفاده از sortBy() Get the top airports by delay using sortBy()

  • جستجوی توضیحات فرودگاه با استفاده از lookup()، collectAsMap()، broadcast() Lookup airport descriptions using lookup(), collectAsMap(), broadcast()

  • مشاهده در عمل: تجزیه و تحلیل داده های ایرلاین ها با PySpark - بخش سوم See it in Action : Analyzing Airlines Data with PySpark - III

  • آن را در عمل ببینید: تجزیه و تحلیل داده های خطوط هوایی با PySpark - III See it in Action : Analyzing Airlines Data with PySpark - III

Spark پیشرفته: انباشتگرها، Spark Submit، MapReduce، پشت صحنه Advanced Spark: Accumulators, Spark Submit, MapReduce , Behind The Scenes

  • دریافت اطلاعات از گره های پردازش فردی با استفاده از انباشته کننده ها Get information from individual processing nodes using accumulators

  • برنامه های طولانی در حال اجرا با استفاده از spark-submit Long running programs using spark-submit

  • آن را در عمل ببینید: اجرای یک اسکریپت پایتون با Spark-Submit See it in Action : Running a Python script with Spark-Submit

  • پشت صحنه: وقتی یک فیلمنامه Spark اجرا می شود چه اتفاقی می افتد؟ Behind the scenes: What happens when a Spark script runs?

  • آن را در عمل ببینید: MapReduce با Spark See it in Action : MapReduce with Spark

Advanced Spark: Accumulators، Spark Submit، MapReduce، پشت صحنه Advanced Spark: Accumulators, Spark Submit, MapReduce , Behind The Scenes

  • دریافت اطلاعات از گره های پردازشی فردی با استفاده از انباشتگرها Get information from individual processing nodes using accumulators

  • مشاهده در عمل: استفاده از متغیر انباشتگر See it in Action : Using an Accumulator variable

  • آن را در Action ببینید: با استفاده از یک متغیر Accumulator See it in Action : Using an Accumulator variable

  • برنامه های طولانی مدت با استفاده از spark-submit Long running programs using spark-submit

  • مشاهده در عمل: اجرای یک اسکریپت پایتون با Spark-Submit See it in Action : Running a Python script with Spark-Submit

  • پشت صحنه: هنگام اجرای یک اسکریپت Spark چه اتفاقی می افتد؟ Behind the scenes: What happens when a Spark script runs?

  • اجرای عملیات MapReduce Running MapReduce operations

  • اجرای عملیات MapReduce Running MapReduce operations

  • مشاهده در عمل: MapReduce با Spark See it in Action : MapReduce with Spark

Java و Spark Java and Spark

  • جاوا API و اشیاء تابع The Java API and Function objects

  • اجرای کد جاوا Running Java code

  • آن را در عمل ببینید: اجرای Spark Job با جاوا See it in Action : Running a Spark Job with Java

جاوا و اسپارک Java and Spark

  • API جاوا و اشیاء تابع The Java API and Function objects

  • RDD ها را در جاوا جفت کنید Pair RDDs in Java

  • RDD های زوجی در جاوا Pair RDDs in Java

  • اجرای کد جاوا Running Java code

  • نصب Maven Installing Maven

  • نصب Maven Installing Maven

  • مشاهده در عمل: اجرای یک Job Spark با جاوا See it in Action : Running a Spark Job with Java

PageRank: رتبه بندی نتایج جستجو PageRank: Ranking Search Results

  • الگوریتم PageRank The PageRank algorithm

  • به بهینه سازی در PageRank با استفاده از پارتیشن بندی سفارشی بپیوندید Join optimization in PageRank using Custom Partitioning

PageRank: رتبه بندی نتایج جستجو PageRank: Ranking Search Results

  • PageRank چیست؟ What is PageRank?

  • PageRank چیست؟ What is PageRank?

  • الگوریتم PageRank The PageRank algorithm

  • پیاده سازی PageRank در Spark Implement PageRank in Spark

  • پیاده سازی PageRank در Spark Implement PageRank in Spark

  • بهینه سازی Join در PageRank با استفاده از پارتیشن بندی سفارشی Join optimization in PageRank using Custom Partitioning

  • اقدام: الگوریتم PageRank با استفاده از Spark See it Action : The PageRank algorithm using Spark

  • مشاهده در عمل: الگوریتم PageRank با استفاده از Spark See it Action : The PageRank algorithm using Spark

Spark SQL Spark SQL

  • آن را در Action ببینید: Dataframes و Spark SQL See it in Action : Dataframes and Spark SQL

Spark SQL Spark SQL

  • Dataframes: RDD ها + جداول Dataframes: RDDs + Tables

  • فریم های داده: RDD + جداول Dataframes: RDDs + Tables

  • مشاهده در عمل: Dataframes و Spark SQL See it in Action : Dataframes and Spark SQL

MLlib در Spark: ساخت یک موتور توصیه گر MLlib in Spark: Build a recommendations engine

  • الگوریتم های فیلتر مشترک Collaborative filtering algorithms

  • تحلیل عاملی نهفته با روش حداقل مربعات متناوب Latent Factor Analysis with the Alternating Least Squares method

  • پیاده سازی کد در Spark با استفاده از MLlib Implement code in Spark using MLlib

MLlib در Spark: یک موتور توصیه بسازید MLlib in Spark: Build a recommendations engine

  • الگوریتم های فیلترینگ مشارکتی Collaborative filtering algorithms

  • تجزیه و تحلیل عامل پنهان با روش حداقل مربعات متناوب Latent Factor Analysis with the Alternating Least Squares method

  • توصیه های موسیقی با استفاده از مجموعه داده Audioscrobbler Music recommendations using the Audioscrobbler dataset

  • توصیه موسیقی با استفاده از مجموعه داده Audioscrobbler Music recommendations using the Audioscrobbler dataset

  • پیاده سازی کد در Spark با استفاده از MLlib Implement code in Spark using MLlib

Spark Streaming Spark Streaming

  • آن را در Action: Spark Streaming ببینید See it in Action : Spark Streaming

جریان جرقه Spark Streaming

  • مقدمه ای بر جریان Introduction to streaming

  • مقدمه ای بر استریمینگ Introduction to streaming

  • اجرای پردازش جریان در Spark با استفاده از Dstreams Implement stream processing in Spark using Dstreams

  • پیاده سازی پردازش استریم در Spark با استفاده از Dstreams Implement stream processing in Spark using Dstreams

  • تبدیلات حالت دار با استفاده از پنجره های کشویی Stateful transformations using sliding windows

  • تبدیل حالت با استفاده از پنجره های کشویی Stateful transformations using sliding windows

  • مشاهده در عمل: Spark Streaming See it in Action : Spark Streaming

کتابخانه های گراف Graph Libraries

کتابخانه های نموداری Graph Libraries

  • شبکه اجتماعی مارول با استفاده از نمودارها The Marvel social network using Graphs

  • شبکه اجتماعی Marvel با استفاده از گراف ها The Marvel social network using Graphs

نمایش نظرات

آموزش از صفر تا یک: اسپارک برای علم داده با پایتون
جزییات دوره
8.5 hours
54
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
8,208
4.2 از 5
دارد
دارد
دارد
Loony Corn
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Loony Corn Loony Corn

یک تیم سابق گوگل، استنفورد و فلیپ کارت