لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش آپاچی اسپارک: نکات، ترفندها و تکنیک ها [ویدئو]
Apache Spark: Tips, Tricks, & Techniques [Video]
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
آپاچی اسپارک مدت زیادی است که وجود داشته است، اما آیا واقعاً میدانید چگونه میتوانید بیشترین بهره را از اسپارک ببرید؟ هدف این دوره ارائه امکانات جدید به شماست. شما بسیاری از جنبه های Spark را بررسی خواهید کرد، برخی از آنها ممکن است هرگز در مورد آنها نشنیده باشید و برخی از آنها هرگز نمی دانستید که وجود دارند.
در این دوره آموزشی، پیاده سازی چند تکنیک عملی و اثبات شده برای بهبود جنبه های خاص برنامه نویسی و مدیریت در آپاچی اسپارک را خواهید آموخت. شما 7 بخش را بررسی خواهید کرد که جنبه های مختلف Spark را از طریق 5 تکنیک خاص با دستورالعمل های واضح در مورد نحوه انجام وظایف مختلف Apache Spark با تجربه عملی بررسی می کند. تکنیک ها با استفاده از مثال های عملی و بهترین شیوه ها نشان داده می شوند.
در پایان این دوره، نکات هیجان انگیز، بهترین روش ها و تکنیک ها را با آپاچی اسپارک فرا خواهید گرفت. شما قادر خواهید بود وظایف را انجام دهید و بهترین داده ها را از پایگاه داده های خود بسیار سریعتر و با سهولت دریافت کنید.
تمامی کدها و فایل های پشتیبانی این دوره در Github در https://github.com/PacktPublishing/Apache-Spark-Tips-Tricks-Techniques موجود است •Compose jobs Spark from actions and transformations
• با استفاده از تغییر ناپذیری، برنامه های Spark بسیار همزمان ایجاد کنید
•راه هایی برای جلوگیری از گران ترین عملیات در Spark API—Shuffle
•چگونه داده ها را برای پردازش بیشتر با انتخاب فرمت داده های مناسب ذخیره شده توسط Spark ذخیره کنیم
• موازی کردن داده های کلیدی. با نحوه استفاده از Spark's Key/Value API آشنا شوید
• مشاغل خود را دوباره طراحی کنید تا به جای groupBy از reduceByKey استفاده کنید
• با آزمایش کارهای Apache Spark، خطوط لوله پردازش قوی ایجاد کنید
حل مشکلات مکرر با استفاده از GraphX API این دوره برای توسعه دهندگان Apache Spark است که می خواهند راه های مفید و جالبی را برای بهبود بیشتر مهارت های Apache Spark خود برای پردازش و تجزیه و تحلیل حجم زیادی از داده ها به سرعت، منحصر به فرد و آسان تر یاد بگیرند. مسیر. •با کاهش دادن به هم زدن، به کارهای Spark خود سرعت دهید * • از Key/Value API در پردازش کلان داده خود استفاده کنید تا کارهای شما با ترافیک شبکه کمتر سریعتر کار کند * • کارهای Spark را با استفاده از واحد، ادغام و تکنیک های انتها به انتها آزمایش کنید. تا خط لوله داده خود را قوی و ضد گلوله کنید *
سرفصل ها و درس ها
تحولات و اقدامات
Transformations and Actions
بررسی اجمالی دوره
The Course Overview
استفاده از تبدیل جرقه برای به تعویق انداختن محاسبات به زمان بعدی
Using Spark Transformations to Defer Computations to a Later Time
اجتناب از تحولات
Avoiding Transformations
استفاده از Reduce و ReducByKey برای محاسبه نتایج
Using reduce and reduceByKey to Calculate Results
انجام اقداماتی که محاسبات را آغاز می کنند
Performing Actions That Trigger Computations
استفاده مجدد از همان RDD برای اقدامات مختلف
Reusing the Same RDD for Different Actions
طراحی تغییرناپذیر
Immutable Design
در زنجیره والد/فرزند Spark RDDs کاوش کنید
Delve into Spark RDDs Parent/Child Chain
استفاده از RDD به روشی غیرقابل تغییر
Using RDD in an Immutable Way
استفاده از عملیات DataFrame برای تبدیل آن
Using DataFrame Operations to Transform It
تغییر ناپذیری در محیط بسیار همزمان
Immutability in the Highly Concurrent Environment
استفاده از Dataset API به روشی غیرقابل تغییر
Using Dataset API in an Immutable Way
اجتناب از مخلوط کردن و کاهش هزینه های عملیاتی
Avoid Shuffle and Reduce Operational Expenses
تشخیص مختلط در یک پردازش
Detecting a Shuffle in a Processing
آزمایش عملیاتی که باعث درهم ریختگی در آپاچی اسپارک می شود
Testing Operations That Cause Shuffle in Apache Spark
تغییر طراحی مشاغل با وابستگی های گسترده
Changing Design of Jobs with Wide Dependencies
استفاده از عملیات keyBy() برای کاهش Shuffle
Using keyBy() Operations to Reduce Shuffle
استفاده از پارتیشن سفارشی برای کاهش درهم ریختگی
Using Custom Partitioner to Reduce Shuffle
ذخیره داده ها در فرمت صحیح
Saving Data in the Correct Format
ذخیره داده ها در متن ساده
Saving Data in Plain Text
استفاده از JSON به عنوان یک فرمت داده
Leveraging JSON as a Data Format
قالب های جدولی - CSV
Tabular Formats – CSV
استفاده از Avro با Spark
Using Avro with Spark
قالب های ستونی – پارکت
Columnar Formats – Parquet
کار با Spark Key/Value API
Working with Spark Key/Value API
تبدیلهای موجود در جفتهای کلید/مقدار
Available Transformations on Key/Value Pairs
استفاده از aggregateByKey به جای groupBy()
Using aggregateByKey Instead of groupBy()
اقدامات روی جفت کلید/مقدار
Actions on Key/Value Pairs
پارتیشنکنندههای موجود در دادههای کلید/مقدار
Available Partitioners on Key/Value Data
پیاده سازی پارتیشن سفارشی
Implementing Custom Partitioner
تست Apache Spark Jobs
Testing Apache Spark Jobs
جداسازی منطق از موتور اسپارک – تست واحد
Separating Logic from Spark Engine – Unit Testing
تست یکپارچه سازی با استفاده از SparkSession
Integration Testing Using SparkSession
تمسخر منابع داده با استفاده از توابع جزئی
Mocking Data Sources Using Partial Functions
استفاده از ScalaCheck برای تست مبتنی بر ویژگی
Using ScalaCheck for Property-Based Testing
تست در نسخه های مختلف Spark
Testing in Different Versions of Spark
استفاده از Spark GraphX API
Leveraging Spark GraphX API
ایجاد نمودار از Datasource
Creating Graph from Datasource
با استفاده از Vertex API
Using Vertex API
با استفاده از Edge API
Using Edge API
محاسبه درجه راس
Calculate Degree of Vertex
محاسبه رتبه صفحه
Calculate Page Rank
نمایش نظرات
Packtpub یک ناشر دیجیتالی کتابها و منابع آموزشی در زمینه فناوری اطلاعات و توسعه نرمافزار است. این شرکت از سال 2004 فعالیت خود را آغاز کرده و به تولید و انتشار کتابها، ویدیوها و دورههای آموزشی میپردازد که به توسعهدهندگان و متخصصان فناوری اطلاعات کمک میکند تا مهارتهای خود را ارتقا دهند. منابع آموزشی Packtpub موضوعات متنوعی از جمله برنامهنویسی، توسعه وب، دادهکاوی، امنیت سایبری و هوش مصنوعی را پوشش میدهد. محتوای این منابع به صورت کاربردی و بهروز ارائه میشود تا کاربران بتوانند دانش و تواناییهای لازم برای موفقیت در پروژههای عملی و حرفهای خود را کسب کنند.
توماس للک یک مهندس نرم افزار است که بیشتر در جاوا و اسکالا برنامه نویسی می کند. او از طرفداران معماری میکروسرویس و برنامه نویسی کاربردی است. او هر روز زمان و تلاش قابل توجهی را برای بهتر شدن اختصاص می دهد. او اخیراً به فناوریهای کلان داده مانند Apache Spark و Hadoop پرداخته است. او تقریباً به همه چیزهایی که با توسعه نرم افزار مرتبط است علاقه دارد.
توماس فکر می کند که همیشه باید سعی کنیم قبل از حل یک مشکل راه حل ها و رویکردهای مختلف را در نظر بگیریم. او اخیراً در چندین کنفرانس در لهستان - Confitura و JDD (روز توسعهدهنده جاوا) و همچنین در گروه کاربری Krakow Scala سخنران بود. میتوانید ویدیوی JDD را در اینجا پیدا کنید: https://www.youtube.com/watch?v=BnORjQbnZNQ&t - بحث ML Spark.
او همچنین یک جلسه برنامه نویسی زنده در کنفرانس Geecon برگزار کرد. او در حال حاضر روی این وب سایت با استفاده از ML کار می کند: http://www.allegro.pl
نمایش نظرات