آموزش آپاچی اسپارک: نکات، ترفندها و تکنیک ها [ویدئو]

Apache Spark: Tips, Tricks, & Techniques [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: آپاچی اسپارک مدت زیادی است که وجود داشته است، اما آیا واقعاً می‌دانید چگونه می‌توانید بیشترین بهره را از اسپارک ببرید؟ هدف این دوره ارائه امکانات جدید به شماست. شما بسیاری از جنبه های Spark را بررسی خواهید کرد، برخی از آنها ممکن است هرگز در مورد آنها نشنیده باشید و برخی از آنها هرگز نمی دانستید که وجود دارند. در این دوره آموزشی، پیاده سازی چند تکنیک عملی و اثبات شده برای بهبود جنبه های خاص برنامه نویسی و مدیریت در آپاچی اسپارک را خواهید آموخت. شما 7 بخش را بررسی خواهید کرد که جنبه های مختلف Spark را از طریق 5 تکنیک خاص با دستورالعمل های واضح در مورد نحوه انجام وظایف مختلف Apache Spark با تجربه عملی بررسی می کند. تکنیک ها با استفاده از مثال های عملی و بهترین شیوه ها نشان داده می شوند. در پایان این دوره، نکات هیجان انگیز، بهترین روش ها و تکنیک ها را با آپاچی اسپارک فرا خواهید گرفت. شما قادر خواهید بود وظایف را انجام دهید و بهترین داده ها را از پایگاه داده های خود بسیار سریعتر و با سهولت دریافت کنید. تمامی کدها و فایل های پشتیبانی این دوره در Github در https://github.com/PacktPublishing/Apache-Spark-Tips-Tricks-Techniques موجود است •Compose jobs Spark from actions and transformations • با استفاده از تغییر ناپذیری، برنامه های Spark بسیار همزمان ایجاد کنید •راه هایی برای جلوگیری از گران ترین عملیات در Spark API—Shuffle •چگونه داده ها را برای پردازش بیشتر با انتخاب فرمت داده های مناسب ذخیره شده توسط Spark ذخیره کنیم • موازی کردن داده های کلیدی. با نحوه استفاده از Spark's Key/Value API آشنا شوید • مشاغل خود را دوباره طراحی کنید تا به جای groupBy از reduceByKey استفاده کنید • با آزمایش کارهای Apache Spark، خطوط لوله پردازش قوی ایجاد کنید حل مشکلات مکرر با استفاده از GraphX ​​API این دوره برای توسعه دهندگان Apache Spark است که می خواهند راه های مفید و جالبی را برای بهبود بیشتر مهارت های Apache Spark خود برای پردازش و تجزیه و تحلیل حجم زیادی از داده ها به سرعت، منحصر به فرد و آسان تر یاد بگیرند. مسیر. •با کاهش دادن به هم زدن، به کارهای Spark خود سرعت دهید * • از Key/Value API در پردازش کلان داده خود استفاده کنید تا کارهای شما با ترافیک شبکه کمتر سریعتر کار کند * • کارهای Spark را با استفاده از واحد، ادغام و تکنیک های انتها به انتها آزمایش کنید. تا خط لوله داده خود را قوی و ضد گلوله کنید *

سرفصل ها و درس ها

تحولات و اقدامات Transformations and Actions

  • بررسی اجمالی دوره The Course Overview

  • استفاده از تبدیل جرقه برای به تعویق انداختن محاسبات به زمان بعدی Using Spark Transformations to Defer Computations to a Later Time

  • اجتناب از تحولات Avoiding Transformations

  • استفاده از Reduce و ReducByKey برای محاسبه نتایج Using reduce and reduceByKey to Calculate Results

  • انجام اقداماتی که محاسبات را آغاز می کنند Performing Actions That Trigger Computations

  • استفاده مجدد از همان RDD برای اقدامات مختلف Reusing the Same RDD for Different Actions

طراحی تغییرناپذیر Immutable Design

  • در زنجیره والد/فرزند Spark RDDs کاوش کنید Delve into Spark RDDs Parent/Child Chain

  • استفاده از RDD به روشی غیرقابل تغییر Using RDD in an Immutable Way

  • استفاده از عملیات DataFrame برای تبدیل آن Using DataFrame Operations to Transform It

  • تغییر ناپذیری در محیط بسیار همزمان Immutability in the Highly Concurrent Environment

  • استفاده از Dataset API به روشی غیرقابل تغییر Using Dataset API in an Immutable Way

اجتناب از مخلوط کردن و کاهش هزینه های عملیاتی Avoid Shuffle and Reduce Operational Expenses

  • تشخیص مختلط در یک پردازش Detecting a Shuffle in a Processing

  • آزمایش عملیاتی که باعث درهم ریختگی در آپاچی اسپارک می شود Testing Operations That Cause Shuffle in Apache Spark

  • تغییر طراحی مشاغل با وابستگی های گسترده Changing Design of Jobs with Wide Dependencies

  • استفاده از عملیات keyBy() برای کاهش Shuffle Using keyBy() Operations to Reduce Shuffle

  • استفاده از پارتیشن سفارشی برای کاهش درهم ریختگی Using Custom Partitioner to Reduce Shuffle

ذخیره داده ها در فرمت صحیح Saving Data in the Correct Format

  • ذخیره داده ها در متن ساده Saving Data in Plain Text

  • استفاده از JSON به عنوان یک فرمت داده Leveraging JSON as a Data Format

  • قالب های جدولی - CSV Tabular Formats – CSV

  • استفاده از Avro با Spark Using Avro with Spark

  • قالب های ستونی – پارکت Columnar Formats – Parquet

کار با Spark Key/Value API Working with Spark Key/Value API

  • تبدیل‌های موجود در جفت‌های کلید/مقدار Available Transformations on Key/Value Pairs

  • استفاده از aggregateByKey به جای groupBy() Using aggregateByKey Instead of groupBy()

  • اقدامات روی جفت کلید/مقدار Actions on Key/Value Pairs

  • پارتیشن‌کننده‌های موجود در داده‌های کلید/مقدار Available Partitioners on Key/Value Data

  • پیاده سازی پارتیشن سفارشی Implementing Custom Partitioner

تست Apache Spark Jobs Testing Apache Spark Jobs

  • جداسازی منطق از موتور اسپارک – تست واحد Separating Logic from Spark Engine – Unit Testing

  • تست یکپارچه سازی با استفاده از SparkSession Integration Testing Using SparkSession

  • تمسخر منابع داده با استفاده از توابع جزئی Mocking Data Sources Using Partial Functions

  • استفاده از ScalaCheck برای تست مبتنی بر ویژگی Using ScalaCheck for Property-Based Testing

  • تست در نسخه های مختلف Spark Testing in Different Versions of Spark

استفاده از Spark GraphX ​​API Leveraging Spark GraphX API

  • ایجاد نمودار از Datasource Creating Graph from Datasource

  • با استفاده از Vertex API Using Vertex API

  • با استفاده از Edge API Using Edge API

  • محاسبه درجه راس Calculate Degree of Vertex

  • محاسبه رتبه صفحه Calculate Page Rank

نمایش نظرات

Packtpub یک ناشر دیجیتالی کتاب‌ها و منابع آموزشی در زمینه فناوری اطلاعات و توسعه نرم‌افزار است. این شرکت از سال 2004 فعالیت خود را آغاز کرده و به تولید و انتشار کتاب‌ها، ویدیوها و دوره‌های آموزشی می‌پردازد که به توسعه‌دهندگان و متخصصان فناوری اطلاعات کمک می‌کند تا مهارت‌های خود را ارتقا دهند. منابع آموزشی Packtpub موضوعات متنوعی از جمله برنامه‌نویسی، توسعه وب، داده‌کاوی، امنیت سایبری و هوش مصنوعی را پوشش می‌دهد. محتوای این منابع به صورت کاربردی و به‌روز ارائه می‌شود تا کاربران بتوانند دانش و توانایی‌های لازم برای موفقیت در پروژه‌های عملی و حرفه‌ای خود را کسب کنند.

آموزش آپاچی اسپارک: نکات، ترفندها و تکنیک ها [ویدئو]
جزییات دوره
2 h 26 m
36
Packtpub Packtpub
(آخرین آپدیت)
1
4 از 5
ندارد
دارد
دارد
Tomasz Lelek
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Tomasz Lelek Tomasz Lelek

توماس للک یک مهندس نرم افزار است که بیشتر در جاوا و اسکالا برنامه نویسی می کند. او از طرفداران معماری میکروسرویس و برنامه نویسی کاربردی است. او هر روز زمان و تلاش قابل توجهی را برای بهتر شدن اختصاص می دهد. او اخیراً به فناوری‌های کلان داده مانند Apache Spark و Hadoop پرداخته است. او تقریباً به همه چیزهایی که با توسعه نرم افزار مرتبط است علاقه دارد. توماس فکر می کند که همیشه باید سعی کنیم قبل از حل یک مشکل راه حل ها و رویکردهای مختلف را در نظر بگیریم. او اخیراً در چندین کنفرانس در لهستان - Confitura و JDD (روز توسعه‌دهنده جاوا) و همچنین در گروه کاربری Krakow Scala سخنران بود. می‌توانید ویدیوی JDD را در اینجا پیدا کنید: https://www.youtube.com/watch?v=BnORjQbnZNQ&t - بحث ML Spark. او همچنین یک جلسه برنامه نویسی زنده در کنفرانس Geecon برگزار کرد. او در حال حاضر روی این وب سایت با استفاده از ML کار می کند: http://www.allegro.pl