آموزش تحلیل داده‌های بزرگ با Scala و Spark - آخرین آپدیت

دانلود Big Data Analysis with Scala and Spark

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: مدیریت داده‌های بزرگ توزیع‌شده در یک کلاستر با استفاده از مفاهیم تابعی (Functional) در صنعت بسیار رایج است و می‌توان آن را یکی از اولین کاربردهای گسترده صنعتی ایده‌های تابعی دانست. محبوبیت MapReduce، Hadoop و اخیراً Apache Spark (یک فریم‌ورک سریع برای مجموعه‌های توزیع‌شده در حافظه که با Scala نوشته شده)، گواه این موضوع است. در این دوره، ما یاد می‌گیریم که چگونه پارادایم موازی‌سازی داده‌ها را با استفاده از Spark به حالت توزیع‌شده گسترش دهیم. ما مدل برنامه‌نویسی Spark را با جزئیات پوشش خواهیم داد و به دقت بررسی می‌کنیم که این مدل چه زمانی و چگونه با مدل‌های برنامه‌نویسی آشنا مانند مجموعه‌های موازی با حافظه مشترک یا مجموعه‌های ترتیبی در Scala متفاوت است. از طریق مثال‌های عملی در Spark و Scala، یاد خواهیم گرفت که چه زمانی باید مسائل مهم مربوط به توزیع‌شدگی مانند تأخیر (Latency) و ارتباطات شبکه را در نظر گرفت و چگونه می‌توان برای بهبود عملکرد، آن‌ها را به طور مؤثر مدیریت کرد. دستاورد‌های یادگیری: در پایان این دوره شما قادر خواهید بود: - داده‌ها را از ذخیره‌سازهای دائمی خوانده و در Apache Spark بارگذاری کنید، - داده‌ها را با استفاده از Spark و Scala مدیریت کنید، - الگوریتم‌های تحلیل داده را به سبک تابعی پیاده‌سازی کنید، - نحوه جلوگیری از Shuffle و محاسبات مجدد (Recomputation) در Spark را تشخیص دهید. پیش‌نیاز پیشنهادی: شما باید حداقل یک سال تجربه برنامه‌نویسی داشته باشید. تسلط بر Java یا C# ایده‌آل است، اما تجربه در سایر زبان‌ها مانند C/C++، Python، Javascript یا Ruby نیز کافی است. همچنین باید با استفاده از خط فرمان (Command Line) آشنایی داشته باشید. این دوره برای گذراندن پس از دوره برنامه‌نویسی موازی (Parallel Programming) طراحی شده است.

سرفصل ها و درس ها

شروع کار و مبانی Spark Getting Started + Spark Basics

  • مقدمه، تدارکات و آنچه خواهید آموخت Introduction, Logistics, What You'll Learn

  • از موازی‌سازی داده‌ها تا موازی‌سازی توزیع‌شده Data-Parallel to Distributed Data-Parallel

  • تأخیر (Latency) Latency

  • RDDها، مجموعه‌های توزیع‌شده Spark RDDs, Spark's Distributed Collection

  • RDDها: تبدیل‌ها (Transformations) و عملیات‌ها (Actions) RDDs: Transformation and Actions

  • ارزیابی در Spark: تفاوت با مجموعه‌های Scala! Evaluation in Spark: Unlike Scala Collections!

  • اهمیت توپولوژی کلاستر! Cluster Topology Matters!

عملیات کاهش و جفت‌های کلید-مقدار توزیع‌شده Reduction Operations & Distributed Key-Value Pairs

  • عملیات کاهش (Reduction Operations) Reduction Operations

  • Pair RDDها Pair RDDs

  • تبدیل‌ها و عملیات‌ها روی Pair RDDها Transformations and Actions on Pair RDDs

  • اتصال‌ها (Joins) Joins

پارتیشن‌بندی و Shuffling Partitioning and Shuffling

  • Shuffling: چیست و چرا اهمیت دارد؟ Shuffling: What it is and why it's important

  • پارتیشن‌بندی (Partitioning) Partitioning

  • بهینه‌سازی با استفاده از پارتیشن‌کننده‌ها Optimizing with Partitioners

  • وابستگی‌های عریض در مقابل باریک (Wide vs Narrow) Wide vs Narrow Dependencies

داده‌های ساختاریافته: SQL، Dataframes و Datasets Structured data: SQL, Dataframes, and Datasets

  • داده‌های ساختاریافته در مقابل غیرساختاریافته Structured vs Unstructured Data

  • Spark SQL Spark SQL

  • دیتا فریم‌ها (بخش اول) DataFrames (1)

  • دیتا فریم‌ها (بخش دوم) DataFrames (2)

  • دیتا ست‌ها (Datasets) Datasets

نمایش نظرات

آموزش تحلیل داده‌های بزرگ با Scala و Spark
جزییات دوره
27h 57m
20
(آخرین آپدیت)
103,190
4.8 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar