آموزش Apache Spark با Scala برای گواهینامه Databricks مفید است

Apache Spark with Scala useful for Databricks Certification

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: Apache Spark with Scala Crash Course مفید برای Databricks Certification غیر رسمی برای مبتدیان

آنچه یاد خواهید گرفت

  • Apache Spark ( Spark Core، Spark SQL، Spark RDD و Spark DataFrame)
  • برنامه درسی گواهینامه Databricks موجود در دوره
  • مروری بر معماری آپاچی اسپارک.
  • برای پردازش و تجزیه و تحلیل مجموعه داده‌های بزرگ، با مجموعه داده‌های توزیع‌شده (RDD) انتزاعی اولیه Apache Spark کار کنید.
  • برنامه‌های Apache Spark 3.0 را با استفاده از تبدیل‌ها و اقدامات RDD و Spark SQL توسعه دهید.
  • تجزیه و تحلیل داده های ساختاریافته و نیمه ساختار یافته با استفاده از Datasets و DataFrames و ایجاد درک کامل در مورد Spark SQL.

Apache Spark با Scala برای گواهینامه Databricks مفید است (غیر رسمی)


Apache Spark با اسکالا یک دوره آموزشی کرش برای علاقه مندان به گواهینامه Databricks (غیر رسمی) برای مبتدیان است


تجزیه و تحلیل «داده‌های بزرگ» یک مهارت داغ و بسیار ارزشمند است – و این دوره به شما داغ‌ترین فناوری در داده‌های بزرگ را آموزش می‌دهد: Apache Spark. کارفرمایان از جمله آمازون، eBay، ناسا، یاهو و بسیاری دیگر. همه از Spark استفاده می‌کنند. برای استخراج سریع معنی از مجموعه داده های عظیم در یک خوشه Hadoop مقاوم در برابر خطا. شما همان تکنیک ها را با استفاده از سیستم عامل خود در خانه یاد خواهید گرفت.


بنابراین، در این دوره چه چیزی را می خواهیم پوشش دهیم؟

با بیش از 30 مثال عملی، هنر قاب‌بندی مسائل تجزیه و تحلیل داده‌ها را به‌عنوان مشکلات Spark بیاموزید و به آنها مسلط شوید و سپس آن‌ها را برای اجرای سرویس‌های محاسبات ابری Databricks (سرویس رایگان) در این دوره اجرا کنید. خوب، دوره شامل موضوعاتی است که برای صدور گواهینامه گنجانده شده است:


1) اجزای معماری Spark

  • راننده،

  • Core/Slots/Threads،

  • مجری

  • پارتیشن ها

2) اجرای جرقه

  • شغل

  • وظایف

  • مراحل

3) مفاهیم جرقه

  • در حال ذخیره،

  • تغییرهای قاب داده در مقابل اقدامات، درهم ریختن

  • پارتیشن بندی، تغییر شکل گسترده در مقابل باریک

4) DataFrames API

  • DataFrameReader

  • DataFrameWriter

  • DataFrame [مجموعه داده]

5) ستون ردیف (DataFrame)

6) توابع Spark SQL


برای شروع دوره و برای انجام این کار، باید محیط خود را تنظیم کنید.

بنابراین، اولین چیزی که به آن نیاز دارید یک مرورگر وب است که می تواند (Google Chrome یا Firefox، یا Safari، یا Microsoft Edge (آخرین نسخه)) روی دسکتاپ Windows، Linux، و macOS باشد

این آموزش کاملاً عملی با محیط Databricks است.

این دوره برای چه کسانی است:

  • مبتدیان Apache Spark، مبتدیان Apache Spark Developer، Bigdata Engineers or Developers، توسعه دهنده نرم افزار، مهندس یادگیری ماشین، دانشمند داده

سرفصل ها و درس ها

مقدمه Introduction

  • مقدمه Introduction

دانلود منابع Download Resources

  • دانلود منابع Download Resources

مقدمه ای بر اجزای معماری اسپارک و اسپارک Introduction to Spark and Spark Architecture Components

  • مقدمه ای بر اسپارک Introduction to Spark

  • ایجاد حساب رایگان (قدیمی) در Databricks (Old) Free Account creation in Databricks

  • (جدید) ایجاد حساب کاربری رایگان در Databricks (New) Free Account creation in Databricks

  • تهیه یک خوشه جرقه Provisioning a Spark Cluster

  • اصول اولیه در مورد نوت بوک Basics about notebooks

  • چرا باید آپاچی اسپارک را یاد بگیریم؟ Why we should learn Apache Spark?

  • اجزای معماری اسپارک Spark Architecture Components

  • راننده Driver

  • پارتیشن ها Partitions

  • مجریان Executors

اجرای جرقه Spark Execution

  • جابز جرقه Spark Jobs

  • مراحل جرقه Spark Stages

  • وظایف جرقه Spark Tasks

  • نمایش عملی مشاغل، وظایف و مراحل Practical Demonstration of Jobs, Tasks and Stages

Spark SQL، DataFrames و Datasets Spark SQL, DataFrames and Datasets

  • Spark RDD (ایجاد و نمایش عملی) Spark RDD (Create and Display Practical)

  • Spark Dataframe (ایجاد و نمایش عملی) Spark Dataframe (Create and Display Practical)

  • توابع ناشناس در اسکالا Anonymus Functions in Scala

  • اضافی (اختیاری در Spark DataFrame) Extra (Optional on Spark DataFrame)

  • اضافی (اختیاری در Spark DataFrame) در جزئیات Extra (Optional on Spark DataFrame) in Details

  • مجموعه داده های Spark (ایجاد و نمایش عملی) Spark Datasets (Create and Display Practical)

  • ذخیره سازی Caching

  • نکاتی در مورد خواندن فایل ها با Spark Notes on reading files with Spark

  • فایل CSV منبع داده Data Source CSV File

  • منبع داده فایل JSON Data Source JSON File

  • منبع داده فایل LIBSVM Data Source LIBSVM File

  • فایل تصویر منبع داده Data Source Image File

  • منبع داده فایل Arvo Data Source Arvo File

  • فایل پارکت منبع داده Data Source Parquet File

  • عملیات مجموعه داده های تایپ نشده (معروف به عملیات DataFrame) Untyped Dataset Operations (aka DataFrame Operations)

  • اجرای پرس و جوهای SQL به صورت برنامه ای Running SQL Queries Programmatically

  • نمای موقت جهانی Global Temporary View

  • ایجاد مجموعه داده ها Creating Datasets

  • توابع اسکالر (توابع اسکالر داخلی) قسمت 1 Scalar Functions (Built-in Scalar Functions) Part 1

  • توابع اسکالر (توابع اسکالر داخلی) قسمت 2 Scalar Functions (Built-in Scalar Functions) Part 2

  • توابع اسکالر (توابع اسکالر داخلی) قسمت 3 Scalar Functions (Built-in Scalar Functions) Part 3

  • توابع اسکالر تعریف شده توسط کاربر User Defined Scalar Functions

جرقه RDD Spark RDD

  • عملیات در آپاچی اسپارک Operation in Apache Spark

  • تحولات Transformations

  • نقشه (عملکرد) map(function)

  • فیلتر (عملکرد) filter(function)

  • flatMap (عملکرد) flatMap(function)

  • نقشه پارتیشن ها (عملکرد) mapPartitions(func)

  • mapPartitionsWithIndex(func) mapPartitionsWithIndex(func)

  • نمونه (با جایگزینی، کسر، دانه) sample(withReplacement, fraction, seed)

  • اتحادیه (دیتا مجموعه دیگر) union(otherDataset)

  • تقاطع (دیگر داده) intersection(otherDataset)

  • متمایز ([numPartitions])) distinct([numPartitions]))

  • groupby (func) groupby(func)

  • groupByKey ([numPartitions]) groupByKey([numPartitions])

  • reduceByKey (func، [numPartitions]) reduceByKey(func, [numPartitions])

  • aggregateByKey(مقدار صفر) (seqOp، combOp، [numPartitions]) aggregateByKey(zeroValue)(seqOp, combOp, [numPartitions])

  • sortByKey ([صعودی]، [numPartitions]) sortByKey([ascending], [numPartitions])

  • join (OtherDataset، [numPartitions]) join(otherDataset, [numPartitions])

  • همگروه (دیتاست دیگر، [numPartitions]) cogroup(otherDataset, [numPartitions])

  • دکارتی (دیگر داده ها) cartesian(otherDataset)

  • coalesce(numPartitions) coalesce(numPartitions)

  • پارتیشن مجدد (numPartitions) repartition(numPartitions)

  • repartitionAndSortWithinPartitions (پارتیشن‌کننده) repartitionAndSortWithinPartitions(partitioner)

  • تحولات گسترده در مقابل باریک Wide vs. Narrow Transformations

  • اقدامات Actions

  • کاهش (عملکرد) reduce(func)

  • جمع آوری () collect()

  • شمردن() count()

  • اولین() first()

  • گرفته شده) take(n)

  • TakeSample (با جایگزینی، تعداد، [seed]) takeSample(withReplacement, num, [seed])

  • takeOrdered(n، [سفارش]) takeOrdered(n, [ordering])

  • countByKey() countByKey()

  • foreach (fun) foreach(func)

  • به هم زدن Shuffling

  • ماندگاری (حافظه پنهان) Persistence (Cache)

  • پافشاری نکنید Unpersist

  • متغیرهای پخش Broadcast Variables

  • آکومولاتورها Accumulators

  • سخنرانی مهم Important Lecture

  • جایزه Bonus

نمایش نظرات

آموزش Apache Spark با Scala برای گواهینامه Databricks مفید است
جزییات دوره
5h 36m
78
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
9,174
4.4 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Bigdata Engineer Bigdata Engineer

مهندس Bigdata من معمار راه حل هستم با 12 سال تجربه در صنعت بانکداری ، ارتباطات از راه دور و خدمات مالی در طیف متنوعی از نقش ها در برنامه های کارت اعتباری ، پرداخت ها ، انبار داده و مرکز داده نقش من به عنوان Bigdata و Cloud Architect به عنوان بخشی از تیم Bigdata برای ارائه راه حل نرم افزاری کار می کنم. مسئولیت ها شامل - از همه مسائل مربوط به Hadoop پشتیبانی کنید - معیار سیستم های موجود ، تجزیه و تحلیل چالش های سیستم موجود/گلوگاه ها و پیشنهاد راه حل های مناسب برای از بین بردن آنها بر اساس فن آوری های مختلف Big Data - تجزیه و تحلیل و تعریف جوانب مثبت و منفی فناوری ها و سیستم عامل های مختلف - موارد استفاده ، راه حل ها و توصیه ها را تعریف کنید - استراتژی Big Data را تعریف کنید - انجام تجزیه و تحلیل دقیق از مشکلات کسب و کار و محیط های فنی - راه حل عملی بزرگ داده را بر اساس تجزیه و تحلیل نیازهای مشتری تعریف کنید - توصیه های عملی Big Big Cluster را تعریف کنید - به مشتریان در مورد فن آوری های مختلف Big Data آموزش دهید تا به آنها در درک نکات مثبت و منفی Big Data کمک کند - حاکمیت داده ها - ساخت ابزارهایی برای بهبود بهره وری توسعه دهنده و اجرای روشهای استاندارد