لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش از 0 تا 1: Spark for Data Science با پایتون
From 0 to 1 : Spark for Data Science with Python
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
با استفاده از Spark برای تجزیه و تحلیل، یادگیری ماشین و علم داده، دادههای خود را به پرواز در آورید. از Spark برای انواع تحلیلها و وظایف یادگیری ماشینی استفاده کنید. الگوریتمهای پیچیدهای مانند رتبه صفحه یا توصیههای موسیقی کار با مجموعه دادههای مختلفی از تاخیر خطوط هوایی گرفته تا توییتر، نمودارهای وب، شبکههای اجتماعی و رتبهبندی محصولات از تمام ویژگیها و کتابخانههای مختلف Spark استفاده میکنند: RDD، Dataframe، Spark SQL، MLlib، Spark Streaming و GraphX پیش نیازها: این دوره به دانش پایتون نیاز دارد. می توانید کد پایتون را مستقیماً در پوسته PySpark بنویسید. اگر قبلاً نوتبوک IPython را نصب کردهاید، به شما نشان میدهیم که چگونه آن را برای Spark For بخش جاوا پیکربندی کنید، ما دانش پایه جاوا را فرض میکنیم. یک IDE که از Maven پشتیبانی می کند، مانند IntelliJ IDEA/Eclipse مفید خواهد بود. همه نمونه ها با یا بدون Hadoop کار می کنند. اگر میخواهید از Spark با Hadoop استفاده کنید، باید Hadoop را نصب کنید (چه در حالت شبه توزیع یا خوشه).
توسط یک تیم 4 نفره شامل 2 تحصیلات دانشگاه استنفورد، Googler سابق و 2 تحلیلگر ارشد سابق Flipkart تدریس میشود. این تیم چندین دهه تجربه عملی در کار با جاوا و با میلیاردها ردیف داده دارد.
با استفاده از Spark برای تجزیه و تحلیل، یادگیری ماشین و علم داده، دادههای خود را به پرواز درآورید
بیایید آن را تجزیه کنیم.
اسپارک چیست؟ اگر یک تحلیلگر یا یک دانشمند داده هستید، به داشتن چندین سیستم برای کار با داده ها عادت کرده اید. SQL، Python، R، جاوا و غیره با Spark، شما یک موتور واحد دارید که می توانید در آن حجم زیادی از داده ها را کاوش و بازی کنید، الگوریتم های یادگیری ماشین را اجرا کنید و سپس از همان سیستم برای تولید کد خود استفاده کنید.
تجزیه و تحلیل: با استفاده از Spark و Python می توانید داده های خود را در یک محیط تعاملی با بازخورد سریع تجزیه و تحلیل و کاوش کنید. این دوره نشان می دهد که چگونه می توان از قدرت RDD ها و Dataframe ها برای دستکاری آسان داده ها استفاده کرد.
یادگیری ماشین و علم داده : عملکرد اصلی Spark و کتابخانههای داخلی اجرای الگوریتمهای پیچیده مانند توصیهها را با خطوط بسیار کمی کد آسان میکند. مجموعههای داده و الگوریتمهای مختلفی از جمله PageRank، MapReduce و Graph را پوشش خواهیم داد.
موارد تحت پوشش:
چیزهای جالب زیادی ..
توصیه های موسیقی با استفاده از حداقل مربعات متناوب و مجموعه داده Audioscrobbler
Dataframes و Spark SQL برای کار با داده های Twitter
استفاده از الگوریتم PageRank با مجموعه داده نمودار وب Google
استفاده از Spark Streaming برای پردازش جریان
کار با داده های نمودار با استفاده از مجموعه داده شبکه اجتماعی مارول
Spark SQL، Spark Streaming، MLlib و GraphFrames (GraphX برای Python)
سرفصل ها و درس ها
شما، این دوره و ما
You, This Course and Us
شما، این دوره و ما
You, This Course and Us
شما، این دوره و ما
You, This Course and Us
مواد درسی
Course Materials
شما، این دوره و ما
You, This Course and Us
مواد درسی
Course Materials
مقدمه ای بر اسپارک
Introduction to Spark
دونالد رامسفلد چه ربطی به تحلیل داده ها دارد؟
What does Donald Rumsfeld have to do with data analysis?
چرا اسپارک خیلی باحاله؟
Why is Spark so cool?
مقدمه ای بر RDDs - Resilient Distributed Datasets
An introduction to RDDs - Resilient Distributed Datasets
مقدمه ای بر RDDs - Resilient Distributed Datasets
An introduction to RDDs - Resilient Distributed Datasets
کتابخانه های داخلی برای Spark
Built-in libraries for Spark
نصب اسپارک
Installing Spark
پوسته PySpark
The PySpark Shell
تحولات و اقدامات
Transformations and Actions
آن را در عمل ببینید: Munging Airlines Data با PySpark - I
See it in Action : Munging Airlines Data with PySpark - I
[برای مبتدیان شل سیستم عامل لینوکس/مک] مسیر و سایر متغیرهای محیطی
[For Linux/Mac OS Shell Newbies] Path and other Environment Variables
مقدمه ای بر اسپارک
Introduction to Spark
دونالد رامسفلد چه ربطی به تحلیل داده ها دارد؟
What does Donald Rumsfeld have to do with data analysis?
چرا اسپارک خیلی باحاله؟
Why is Spark so cool?
کتابخانه های داخلی برای Spark
Built-in libraries for Spark
نصب اسپارک
Installing Spark
پوسته PySpark
The PySpark Shell
تحولات و اقدامات
Transformations and Actions
آن را در عمل ببینید: Munging Airlines Data با PySpark - I
See it in Action : Munging Airlines Data with PySpark - I
[برای مبتدیان شل سیستم عامل لینوکس/مک] مسیر و سایر متغیرهای محیطی
[For Linux/Mac OS Shell Newbies] Path and other Environment Variables
مجموعه داده های توزیع شده انعطاف پذیر
Resilient Distributed Datasets
ویژگی های RDD: پارتیشن ها و تغییرناپذیری
RDD Characteristics: Partitions and Immutability
ویژگی های RDD: پارتیشن ها و تغییرناپذیری
RDD Characteristics: Partitions and Immutability
ویژگی های RDD: نسب، RDD ها می دانند که از کجا آمده اند
RDD Characteristics: Lineage, RDDs know where they came from
با RDD ها چه کاری می توانید انجام دهید؟
What can you do with RDDs?
با RDD ها چه کاری می توانید انجام دهید؟
What can you do with RDDs?
اولین RDD خود را از یک فایل ایجاد کنید
Create your first RDD from a file
اولین RDD خود را از یک فایل ایجاد کنید
Create your first RDD from a file
میانگین مسافت طی شده توسط یک پرواز با استفاده از عملیات map() و reduce().
Average distance travelled by a flight using map() and reduce() operations
دریافت پروازهای تاخیری با استفاده از filter()، داده های حافظه پنهان با استفاده از persist()
Get delayed flights using filter(), cache data using persist()
میانگین تاخیر پرواز در یک مرحله با استفاده از aggregate()
Average flight delay in one-step using aggregate()
هیستوگرام فرکانس تاخیرها با استفاده از countByValue()
Frequency histogram of delays using countByValue()
هیستوگرام فرکانس تاخیرها با استفاده از countByValue()
Frequency histogram of delays using countByValue()
آن را در عمل ببینید: تجزیه و تحلیل داده های خطوط هوایی با PySpark - II
See it in Action : Analyzing Airlines Data with PySpark - II
مجموعه داده های توزیع شده انعطاف پذیر
Resilient Distributed Datasets
ویژگی های RDD: نسب، RDD ها می دانند که از کجا آمده اند
RDD Characteristics: Lineage, RDDs know where they came from
میانگین مسافت طی شده توسط یک پرواز با استفاده از عملیات map() و reduce().
Average distance travelled by a flight using map() and reduce() operations
دریافت پروازهای تاخیری با استفاده از filter()، داده های حافظه پنهان با استفاده از persist()
Get delayed flights using filter(), cache data using persist()
میانگین تاخیر پرواز در یک مرحله با استفاده از aggregate()
Average flight delay in one-step using aggregate()
آن را در عمل ببینید: تجزیه و تحلیل داده های خطوط هوایی با PySpark - II
See it in Action : Analyzing Airlines Data with PySpark - II
RDD های پیشرفته: جفت مجموعه داده های توزیع شده انعطاف پذیر
Advanced RDDs: Pair Resilient Distributed Datasets
تحولات و اقدامات ویژه
Special Transformations and Actions
تحولات و اقدامات ویژه
Special Transformations and Actions
میانگین تاخیر در هر فرودگاه، از ()reducByKey، mapValues() و join() استفاده کنید
Average delay per airport, use reduceByKey(), mapValues() and join()
میانگین تاخیر در هر فرودگاه، از ()reducByKey، mapValues() و join() استفاده کنید
Average delay per airport, use reduceByKey(), mapValues() and join()
میانگین تاخیر در هر فرودگاه در یک مرحله با استفاده از ()combinbyKey
Average delay per airport in one step using combineByKey()
میانگین تاخیر در هر فرودگاه در یک مرحله با استفاده از ()combinbyKey
Average delay per airport in one step using combineByKey()
با استفاده از sortBy() فرودگاه های برتر را با تاخیر دریافت کنید
Get the top airports by delay using sortBy()
با استفاده از sortBy() فرودگاه های برتر را با تاخیر دریافت کنید
Get the top airports by delay using sortBy()
جستجوی توضیحات فرودگاه با استفاده از lookup()، collectAsMap()، broadcast()
Lookup airport descriptions using lookup(), collectAsMap(), broadcast()
آن را در عمل ببینید: تجزیه و تحلیل داده های خطوط هوایی با PySpark - III
See it in Action : Analyzing Airlines Data with PySpark - III
آن را در عمل ببینید: تجزیه و تحلیل داده های خطوط هوایی با PySpark - III
See it in Action : Analyzing Airlines Data with PySpark - III
RDD های پیشرفته: جفت مجموعه داده های توزیع شده انعطاف پذیر
Advanced RDDs: Pair Resilient Distributed Datasets
جستجوی توضیحات فرودگاه با استفاده از lookup()، collectAsMap()، broadcast()
Lookup airport descriptions using lookup(), collectAsMap(), broadcast()
نمایش نظرات