آموزش توسعه برنامه های Spark با استفاده از Scala و Cloudera

Developing Spark Applications Using Scala & Cloudera

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره: Apache Spark یکی از سریعترین و کارآمدترین موتورهای عمومی برای پردازش داده در مقیاس بزرگ است. در این دوره ، شما می آموزید که چگونه با استفاده از Scala و یک توزیع پایدار Hadoop ، Cloudera CDH ، برنامه های Spark را برای Big Data خود توسعه دهید. در هسته اصلی کار با مجموعه داده های مقیاس بزرگ ، دانش کاملی از سیستم عامل های Big Data مانند Apache Spark و هادوپ در این دوره ، در حال توسعه برنامه های Spark با استفاده از Scala & Cloudera ، شما خواهید آموخت که چگونه داده ها را در مقیاسی که قبلاً فکر می کنید از دسترس شما نیست ، پردازش کنید. ابتدا تمام جزئیات فنی نحوه کار Spark را یاد خواهید گرفت. در مرحله بعدی ، RDD API ، انتزاع اصلی هسته Spark را کشف خواهید کرد. سپس ، خواهید فهمید که چگونه با استفاده از Spark SQL و DataFrames مهارت بیشتری کسب کنید. سرانجام ، شما یاد خواهید گرفت که با API تایپ شده Spark: Datasets کار کنید. هنگامی که با این دوره به پایان رسیدید ، دانش بنیادی Apache Spark با Scala و Cloudera را خواهید داشت که به شما کمک می کند هنگام حرکت به سمت جلو برای توسعه برنامه های داده در مقیاس بزرگ که به شما امکان می دهد با Big Data به طور کارآمد و کارآمد کار کنید ، حرکت کنید. راه اجرا

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

چرا با Scala و Cloudera جرقه می زنیم؟ Why Spark with Scala and Cloudera?

  • چرا با Scala و Cloudera جرقه می زنیم؟ Why Spark with Scala and Cloudera?

  • اما چرا Apache Spark؟ But Why Apache Spark?

  • تاریخچه مختصر Spark Brief History of Spark

  • آنچه در این آموزش پوشش خواهیم داد What We Will Cover in This Training

  • چیدن زبان پشتیبانی شده از Spark: Scala ، Python ، Java یا R Picking a Spark Supported Language: Scala, Python, Java, or R

  • برای این دوره به چه چیزی نیاز دارید؟ What Do You Need for This Course?

  • بردن Takeaway

دریافت محیط و داده: CDH + StackOverflow Getting an Environment and Data: CDH + StackOverflow

  • دریافت داده های محیطی: CDH + StackOverflow Getting an Environment & Data: CDH + StackOverflow

  • پیش نیازها مسائل شناخته شده Prerequisites & Known Issues

  • به روزرسانی Cloudera Manager و CDH Upgrading Cloudera Manager and CDH

  • نصب یا ارتقا به جاوا 8 (JDK 1.8) Installing or Upgrading to Java 8 (JDK 1.8)

  • جرقه زدن - چندین گزینه وجود دارد: 1.6 Getting Spark - There Are Several Options: 1.6

  • دریافت Spark 2 به صورت مستقل Getting Spark 2 Standalone

  • نصب Spark 2 در Cloudera Installing Spark 2 on Cloudera

  • داده ها: StackOverflow StackExchange Dumps + Demo Files Data: StackOverflow & StackExchange Dumps + Demo Files

  • آماده سازی داده های بزرگ شما Preparing Your Big Data

  • بردن Takeaway

تازه کردن دانش خود: مبانی Scala برای این دوره Refreshing Your Knowledge: Scala Fundamentals for This Course

  • تازه کردن دانش خود: مبانی Scala برای این دوره Refreshing Your Knowledge: Scala Fundamentals for This Course

  • تاریخچه و بررسی اجمالی Scala Scala's History and Overview

  • ساخت و اجرای برنامه های Scala Building and Running Scala Applications

  • ایجاد برنامه های خودمختار ، از جمله scalac sbt Creating Self-contained Applications, Including scalac & sbt

  • Scala Shell: REPL (ارزیابی ارزیابی حلقه چاپ) The Scala Shell: REPL (Read Evaluate Print Loop)

  • مقیاس ، زبان Scala, the Language

  • اطلاعات بیشتر در مورد انواع ، توابع و عملکردها More on Types, Functions, and Operations

  • عبارات ، توابع و روش ها Expressions, Functions, and Methods

  • کلاسها ، کلاسهای موردی و صفات Classes, Case Classes, and Traits

  • کنترل جریان Flow Control

  • برنامه نویسی عملکردی Functional Programming

  • spark2-shell را وارد کنید: جرقه در پوسته Scala Enter spark2-shell: Spark in the Scala Shell

  • بردن Takeaway

درک جرقه: یک مرور کلی Understanding Spark: An Overview

  • درک جرقه: یک مرور کلی Understanding Spark: An Overview

  • جرقه ، تعداد کلمات ، عملیات و تحولات Spark, Word Count, Operations, and Transformations

  • چند کلمه در مورد دانه های ریز دانه بندی و مقیاس پذیری A Few Words on Fine Grained Transformations and Scalability

  • شمارش کلمات در "داده های بزرگ نیست" Word Count in "Not Big Data"

  • نحوه شمارش کلمات ، دارای دگرگونی های درشت دانه How Word Count Works, Featuring Coarse Grained Transformations

  • موازی سازی با پارتیشن بندی داده ها Parallelism by Partitioning Data

  • Pipelining: یکی از اسرار عملکرد Spark Pipelining: One of the Secrets of Spark's Performance

  • تحولات باریک و گسترده Narrow and Wide Transformations

  • اعدام تنبل ، تبار ، نمودار حلقوی مستقیم (DAG) و تحمل خطا Lazy Execution, Lineage, Directed Acyclic Graph (DAG), and Fault Tolerance

  • زمان برای تصویر بزرگ: کتابخانه های جرقه ای Time for the Big Picture: Spark Libraries

  • بردن Takeaway

گرفتن تکنیک با Spark Getting Technical with Spark

  • دریافت فنی: معماری جرقه ای Getting Technical: Spark Architecture

  • ذخیره سازی در قالب های Spark و داده های پشتیبانی شده Storage in Spark and Supported Data Formats

  • بیایید با API صحبت کنیم: سطح پایین و سطح بالا API جرقه Let's Talk APIs: Low Level and High Level Spark APIs

  • بهینه سازی عملکرد: تنگستن و کاتالیزور Performance Optimizations: Tungsten and Catalyst

  • SparkContext و SparkSession: امتیاز ورود به برنامه های Spark SparkContext and SparkSession: Entry Points to Spark Apps

  • Spark Configuration + Client و Cluster Deployment Modes Spark Configuration + Client and Cluster Deployment Modes

  • Spark on Yarn: The Cluster Manager Spark on Yarn: The Cluster Manager

  • با Cloudera Manager و YARN UI جرقه بزنید Spark with Cloudera Manager and YARN UI

  • تجسم برنامه Spark: وب رابط کاربر و سرور تاریخچه Visualizing Your Spark App: Web UI and History Server

  • ورود به سیستم با Spark و Cloudera Logging in with Spark and Cloudera

  • پیمایش در اسناد Spark و Cloudera Navigating the Spark and Cloudera Documentation

  • بردن Takeaway

یادگیری هسته Spark: RDD Learning the Core of Spark: RDDs

  • یادگیری هسته Spark: RDD Learning the Core of Spark: RDDs

  • SparkContext: نقطه ورود به یک برنامه Spark SparkContext: The Entry Point to a Spark Application

  • RDD و PairRDD - مجموعه داده های توزیع شده انعطاف پذیر RDD and PairRDD - Resilient Distributed Datasets

  • ایجاد RDD با Parallelize Creating RDDs with Parallelize

  • بازگشت داده ها به درایور ، به عنوان مثال جمع آوری () ، گرفتن () ، اول () ... Returning Data to the Driver, i.e. collect(), take(), first()...

  • پارتیشن ها ، مجدد پارتیشن ، ادغام ، ذخیره به عنوان متن و HUE Partitions, Repartition, Coalesce, Saving as Text, and HUE

  • ایجاد RDD از مجموعه داده های خارجی Creating RDDs from External Datasets

  • ذخیره داده ها به عنوان ObjectFile ، NewAPIHadoopFile ، SequenceFile ، ... Saving Data as ObjectFile, NewAPIHadoopFile, SequenceFile, ...

  • ایجاد RDD با تحولات Creating RDDs with Transformations

  • کمی بیشتر در مورد تبار و وابستگی ها A Little Bit More on Lineage and Dependencies

  • بردن Takeaway

رفتن عمیق تر به هسته جرقه Going Deeper into Spark Core

  • رفتن عمیق تر به هسته جرقه Going Deeper into Spark Core

  • برنامه نویسی عملکردی: توابع ناشناس (Lambda) در Spark Functional Programming: Anonymous Functions (Lambda) in Spark

  • نگاهی گذرا به نقشه ، FlatMap ، فیلتر و مرتب سازی A Quick Look at Map, FlatMap, Filter, and Sort

  • چگونه می توانم تشخیص دهم که یک تحول است How Can I Tell It Is a Transformation

  • چرا به اقدامات نیاز داریم؟ Why Do We Need Actions?

  • عملیات پارتیشن: MapPartitions و PartitionBy Partition Operations: MapPartitions and PartitionBy

  • از داده های خود نمونه برداری کنید Sampling Your Data

  • تنظیم عملیات: عضویت ، اتحادیه ، کاملا راست ، چپ بیرونی و دکارتی Set Operations: Join, Union, Full Right, Left Outer, and Cartesian

  • ترکیب ، تجمیع ، کاهش و گروه بندی در PairRDDs Combining, Aggregating, Reducing, and Grouping on PairRDDs

  • ReduceByKey در مقابل GroupByKey: کدام یک بهتر است؟ ReduceByKey vs. GroupByKey: Which One Is Better?

  • گروه بندی داده ها در سطل ها با هیستوگرام Grouping Data into Buckets with Histogram

  • ذخیره سازی و ماندگاری داده ها Caching and Data Persistence

  • متغیرهای مشترک: جمع کننده ها و پخش Shared Variables: Accumulators and Broadcast

  • آنچه برای توسعه برنامه های Spark مستقل مورد نیاز است What's Needed for Developing Self-contained Spark Applications

  • معایب RDD - بنابراین چه چیزی بهتر است؟ Disadvantages of RDDs - So What's Better?

  • بردن Takeaway

افزایش مهارت با Spark: DataFrames و Spark SQL Increasing Proficiency with Spark: DataFrames and Spark SQL

  • افزایش مهارت با Spark: DataFrames Spark SQL Increasing Proficiency with Spark: DataFrames & Spark SQL

  • "همه" از SQL و نحوه شروع آن استفاده می کنند "Everyone" Uses SQL and How It All Began

  • سلام DataFrames و Spark SQL Hello DataFrames and Spark SQL

  • SparkSession: نقطه ورود به Spark SQL/DataFrame API SparkSession: The Entry Point to the Spark SQL / DataFrame API

  • ایجاد DataFrames Creating DataFrames

  • فریم داده ها به RDD و بالعکس DataFrames to RDDs and Vice Versa

  • بارگذاری فریم های داده: متن و CSV Loading DataFrames: Text and CSV

  • طرحواره ها: استنباط شده و به صورت برنامه ای + گزینه Schemas: Inferred and Programatically Specified + Option

  • بارگیری اطلاعات بیشتر: پارکت و JSON More Data Loading: Parquet and JSON

  • ردیف ها ، ستون ها ، عبارات و اپراتورها Rows, Columns, Expressions, and Operators

  • کار با ستون ها Working with Columns

  • بیشتر ستون ها ، عبارات ، شبیه سازی ، تغییر نام ، ریخته گری ، رها کردن More Columns, Expressions, Cloning, Renaming, Casting, & Dropping

  • توابع تعریف شده توسط کاربر (UDF) در Spark SQL User Defined Functions (UDFs) on Spark SQL

  • بردن Takeaway

ادامه سفر در DataFrames و Spark SQL Continuing the Journey on DataFrames and Spark SQL

  • پرس و جو ، مرتب سازی و فیلتر کردن قاب داده ها: DSL Querying, Sorting, and Filtering DataFrames: The DSL

  • با داده های از دست رفته یا خراب چه کاری باید انجام داد What to Do with Missing or Corrupt Data

  • ذخیره DataFrames Saving DataFrames

  • Spark SQL: پرس و جو با استفاده از نماهای موقتی Spark SQL: Querying Using Temporary Views

  • بارگذاری پرونده ها و نمایش ها در DataFrames با استفاده از Spark SQL Loading Files and Views into DataFrames Using Spark SQL

  • ذخیره در جداول پایدار + شماره شناخته شده Spark 2 Saving to Persistent Tables + Spark 2 Known Issue

  • پشتیبانی کندو و پایگاه داده های خارجی Hive Support and External Databases

  • جمع کردن ، گروه بندی و پیوستن Aggregating, Grouping, and Joining

  • API کاتالوگ The Catalog API

  • بردن Takeaway

کار با API تایپ شده: مجموعه داده ها Working with a Typed API: Datasets

  • درک یک API تایپ شده: مجموعه داده ها Understanding a Typed API: Datasets

  • انگیزه پشت مجموعه داده ها The Motivation Behind Datasets

  • مجموعه داده چیست؟ What's a Dataset?

  • برای مجموعه های داده چه چیزی نیاز دارید؟ What Do You Need for Datasets?

  • ایجاد مجموعه های داده Creating Datasets

  • عملیات Dataset Dataset Operations

  • RDD در مقابل DataFrames در مقابل مجموعه داده: چند افکار نهایی RDDs vs. DataFrames vs. Datasets: A Few Final Thoughts

  • بردن Takeaway

آماده سازی نهایی و ادامه سفر با جرقه Final Takeaway and Continuing the Journey with Spark

  • غذای آماده نهایی Final Takeaway

  • ادامه سفر با Spark ، Scala و Cloudera Continuing the Journey with Spark, Scala, and Cloudera

نمایش نظرات

آموزش توسعه برنامه های Spark با استفاده از Scala و Cloudera
جزییات دوره
5h 42m
115
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
36
4.2 از 5
دارد
دارد
دارد
Xavier Morera
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Xavier Morera Xavier Morera

خاویر بسیار علاقه مند به تدریس است ، به دیگران کمک می کند جستجو و Big Data را درک کنند. او همچنین یک کارآفرین ، مدیر پروژه ، نویسنده فنی ، مربی است و دارای چند گواهینامه با Cloudera ، Microsoft و Scrum Alliance ، همراه با MVP مایکروسافت است. او بخش عمده ای از حرفه خود را صرف کار بر روی پروژه های پیشرفته با تمرکز اصلی در .NET ، Solr و Hadoop در میان چند فناوری جالب دیگر کرده است. در طول چندین پروژه ، وی مهارت هایی را برای مقابله با راه حل های نرم افزاری پیچیده سازمانی ، کار با شرکت هایی که از شرکت های نوپا گرفته تا مایکروسافت کار می کنند ، کسب کرده است. خاویر همچنین به عنوان مربی v/trainer در سراسر جهان برای مایکروسافت کار می کرد.