لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش برنامه نویسی مقیاس پذیر با Scala و Spark
Scalable programming with Scala and Spark
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
استفاده از Scala و Spark برای تجزیه و تحلیل دادهها، یادگیری ماشینی و تجزیه و تحلیل استفاده از Spark برای انواع تحلیلها و وظایف یادگیری ماشینی درک ساختارهای برنامهنویسی کاربردی در Scala پیادهسازی الگوریتمهای پیچیده مانند PageRank یا توصیههای موسیقی کار با مجموعه دادههای مختلف از تاخیر خطوط هوایی تا توییتر، وب نمودارها، شبکههای اجتماعی و رتبهبندی محصولات از تمامی ویژگیها و کتابخانههای مختلف Spark استفاده کنید: RDD، Dataframe، Spark SQL، MLlib، Spark Streaming و GraphX در محیطهای Scala REPL کد بنویسید و برنامههای Scala را با IDE بسازید. یا بدون هادوپ اگر میخواهید از Spark با Hadoop استفاده کنید، باید Hadoop را نصب کنید (چه در حالت شبه توزیع یا خوشه). این دوره تجربه با یکی از زبان های برنامه نویسی شی گرا مانند Java/C++ را در نظر می گیرد
توسط یک تیم 4 نفره شامل 2 تحصیلات دانشگاه استنفورد، Googler سابق و 2 تحلیلگر ارشد سابق Flipkart تدریس میشود. این تیم چندین دهه تجربه عملی در کار با جاوا و با میلیاردها ردیف داده دارد.
اطلاعات خود را برای پرواز با استفاده از Spark و Scala برای تجزیه و تحلیل، یادگیری ماشین و علم داده دریافت کنید
بیایید آن را تجزیه کنیم.
اسپارک چیست؟ اگر یک تحلیلگر یا یک دانشمند داده هستید، به داشتن چندین سیستم برای کار با داده ها عادت کرده اید. SQL، Python، R، جاوا و غیره. با Spark، شما یک موتور واحد دارید که در آن می توانید حجم زیادی از داده ها را کاوش و بازی کنید، الگوریتم های یادگیری ماشین را اجرا کنید و سپس از همان سیستم برای تولید کد خود استفاده کنید.
Scala: Scala یک زبان برنامهنویسی عمومی است - مانند جاوا یا C++. ماهیت برنامه نویسی کاربردی و در دسترس بودن محیط REPL آن را به ویژه برای یک چارچوب محاسباتی توزیع شده مانند Spark مناسب می کند.
تجزیه و تحلیل: با استفاده از Spark و Scala می توانید داده های خود را در یک محیط تعاملی با بازخورد سریع تجزیه و تحلیل و کاوش کنید. این دوره نشان می دهد که چگونه می توان از قدرت RDD ها و Dataframe ها برای دستکاری آسان داده ها استفاده کرد.
یادگیری ماشین و علم داده : عملکرد اصلی Spark و کتابخانههای داخلی اجرای الگوریتمهای پیچیده مانند توصیهها را با خطوط بسیار کمی کد آسان میکند. مجموعههای داده و الگوریتمهای مختلفی از جمله PageRank، MapReduce و Graph را پوشش خواهیم داد.
موارد تحت پوشش:
ساختارهای برنامهنویسی Scala: کلاسها، ویژگیها، توابع درجه یک، بستهها، Currying، کلاسهای Case
چیزهای جالب زیادی ..
توصیه های موسیقی با استفاده از حداقل مربعات متناوب و مجموعه داده Audioscrobbler
Dataframes و Spark SQL برای کار با داده های Twitter
استفاده از الگوریتم PageRank با مجموعه داده نمودار وب Google
استفاده از Spark Streaming برای پردازش جریان
کار با داده های نمودار با استفاده از مجموعه داده شبکه اجتماعی مارول
نصب Scala و Hello World
Installing Scala and Hello World
مقدمه ای بر اسپارک
Introduction to Spark
دونالد رامسفلد چه ربطی به تحلیل داده ها دارد؟
What does Donald Rumsfeld have to do with data analysis?
چرا اسپارک خیلی باحاله؟
Why is Spark so cool?
مقدمه ای بر RDDs - Resilient Distributed Datasets
An introduction to RDDs - Resilient Distributed Datasets
کتابخانه های داخلی برای Spark
Built-in libraries for Spark
نصب اسپارک
Installing Spark
پوسته جرقه
The Spark Shell
آن را در عمل ببینید: Munging Airlines Data with Spark
See it in Action : Munging Airlines Data with Spark
تحولات و اقدامات
Transformations and Actions
مجموعه داده های توزیع شده انعطاف پذیر
Resilient Distributed Datasets
ویژگی های RDD: پارتیشن ها و تغییرناپذیری
RDD Characteristics: Partitions and Immutability
ویژگی های RDD: نسب، RDD ها می دانند که از کجا آمده اند
RDD Characteristics: Lineage, RDDs know where they came from
با RDD ها چه کاری می توانید انجام دهید؟
What can you do with RDDs?
اولین RDD خود را از یک فایل ایجاد کنید
Create your first RDD from a file
میانگین مسافت طی شده توسط یک پرواز با استفاده از عملیات map() و reduce().
Average distance travelled by a flight using map() and reduce() operations
دریافت پروازهای تاخیری با استفاده از filter()، داده های حافظه پنهان با استفاده از persist()
Get delayed flights using filter(), cache data using persist()
میانگین تاخیر پرواز در یک مرحله با استفاده از aggregate()
Average flight delay in one-step using aggregate()
هیستوگرام فرکانس تاخیرها با استفاده از countByValue()
Frequency histogram of delays using countByValue()
RDD های پیشرفته: جفت مجموعه داده های توزیع شده انعطاف پذیر
Advanced RDDs: Pair Resilient Distributed Datasets
تحولات و اقدامات ویژه
Special Transformations and Actions
میانگین تاخیر در هر فرودگاه، از ()reducByKey، mapValues() و join() استفاده کنید
Average delay per airport, use reduceByKey(), mapValues() and join()
میانگین تاخیر در هر فرودگاه در یک مرحله با استفاده از ()combinbyKey
Average delay per airport in one step using combineByKey()
با استفاده از sortBy() فرودگاه های برتر را با تاخیر دریافت کنید
Get the top airports by delay using sortBy()
جستجوی توضیحات فرودگاه با استفاده از lookup()، collectAsMap()، broadcast()
Lookup airport descriptions using lookup(), collectAsMap(), broadcast()
نمایش نظرات