آموزش توسعه برنامه های Spark با پایتون و Cloudera

Developing Spark Applications with Python & Cloudera

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره: Apache Spark یکی از سریعترین و کارآمدترین موتورهای عمومی برای پردازش داده در مقیاس بزرگ است. در این دوره ، شما می آموزید که چگونه با استفاده از Python و یک توزیع پایدار Hadoop ، Cloudera CDH ، برنامه های Spark را برای Big Data خود توسعه دهید. همه را بزرگ کنید بررسی اجمالی دوره 1m 59s چرا با پایتون و Cloudera جرقه بزنیم؟ 12 متر 47 دریافت محیط و داده: CDH + StackOverflow 42 متر 5 ثانیه تازه کردن دانش خود: مبانی پایتون برای این دوره 30 متر 22 ثانیه درک جرقه: یک مرور کلی 27m 47s گرفتن تکنیک با Spark 46 متر 9 ثانیه یادگیری هسته Spark: RDD 42m 41s رفتن عمیق تر به هسته جرقه 46 متر 57 افزایش مهارت با Spark: DataFrames & Spark SQL 38 متر 26 ثانیه ادامه سفر در DataFrames و Spark SQL 36 متر 0 ثانیه درک یک API تایپ شده: مجموعه داده ها با Scala کار می کنند ، نه پایتون 5m 51s آماده سازی نهایی و ادامه سفر با جرقه 11 متر 9 ثانیه علائم تجاری و نامهای تجاری اشخاص ثالث ذکر شده در این دوره متعلق به صاحبان مربوطه می باشند و Pluralsight وابسته یا تأیید شده توسط این احزاب نیست.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

چرا با پایتون و Cloudera جرقه بزنیم؟ Why Spark with Python and Cloudera?

  • چرا با پایتون و Cloudera جرقه بزنیم؟ Why Spark with Python and Cloudera?

  • اما چرا Apache Spark؟ But Why Apache Spark?

  • تاریخچه مختصر Spark Brief History of Spark

  • آنچه در این آموزش پوشش خواهیم داد What We Will Cover in This Training

  • چیدن زبان پشتیبانی شده از Spark: پایتون ، اسکالا ، جاوا یا R Picking a Spark Supported Language: Python, Scala, Java, or R

  • برای این دوره به چه چیزی نیاز دارید؟ What Do You Need for This Course?

  • بردن Takeaway

دریافت محیط و داده: CDH + StackOverflow Getting an Environment & Data: CDH + StackOverflow

  • دریافت محیط و داده: CDH + StackOverflow Getting an Environment and Data: CDH + StackOverflow

  • پیش نیازها و مسائل شناخته شده Prerequisites and Known Issues

  • به روزرسانی Cloudera Manager و CDH Upgrading Cloudera Manager and CDH

  • نصب یا ارتقا به جاوا 8 (JDK 1.8) Installing or Upgrading to Java 8 (JDK 1.8)

  • گرفتن جرقه - چندین گزینه وجود دارد: 1.6 Getting Spark - There Are Several Options: 1.6

  • دریافت Spark 2 به صورت مستقل Getting Spark 2 Standalone

  • نصب Spark 2 در Cloudera Installing Spark 2 on Cloudera

  • پاداش - IPython با Anaconda: شارژ PySpark شل خود را Bonus -> IPython with Anaconda: Supercharge Your PySpark Shell

  • داده ها: StackOverflow و StackExchange Dumps + Demo Files Data: StackOverflow and StackExchange Dumps + Demo Files

  • آماده سازی داده های بزرگ شما Preparing Your Big Data

  • بردن Takeaway

تازه کردن دانش خود: مبانی پایتون برای این دوره Refreshing Your Knowledge: Python Fundamentals for This Course

  • تازه کردن دانش خود: مبانی پایتون برای این دوره Refreshing Your Knowledge: Python Fundamentals for This Course

  • تاریخ پایتون ، فلسفه و پارادایم Python's History, Philosophy, and Paradigm

  • Python Shell: REPL The Python Shell: REPL

  • نحو ، متغیرها ، انواع (پویا) و اپراتورها Syntax, Variables, (Dynamic) Types, and Operators

  • متغیرهای مرکب: لیست ها ، Tuples و فرهنگ لغت ها Compound Variables: Lists, Tuples, and Dictionaries

  • بلوک کد ، توابع ، حلقه ها ، ژنراتورها و کنترل جریان Code Blocks, Functions, Loops, Generators, and Flow Control

  • نقشه ، فیلتر ، گروه بندی و کاهش دهید Map, Filter, Group, and Reduce

  • PySpark: Spark in the Shell را وارد کنید Enter PySpark: Spark in the Shell

  • بردن Takeaway

درک جرقه: یک مرور کلی Understanding Spark: An Overview

  • درک جرقه: یک مرور کلی Understanding Spark: An Overview

  • جرقه ، تعداد کلمات ، عملیات و تحولات Spark, Word Count, Operations, and Transformations

  • چند کلمه در مورد دانه های ریز دانه بندی و مقیاس پذیری A Few Words on Fine Grained Transformations and Scalability

  • شمارش کلمات در "داده های بزرگ نیست" Word Count in "Not Big Data"

  • نحوه شمارش کلمات ، دارای دگرگونی های دانه درشت How Word Count Works, Featuring Coarse Grained Transformations

  • موازی سازی با پارتیشن بندی داده ها Parallelism by Partitioning Data

  • Pipelining: یکی از اسرار عملکرد Spark Pipelining: One of the Secrets of Spark's Performance

  • تحولات باریک و گسترده Narrow and Wide Transformations

  • اعدام تنبل ، تبار ، نمودار حلقوی مستقیم (DAG) و تحمل خطا Lazy Execution, Lineage, Directed Acyclic Graph (DAG), and Fault Tolerance

  • کتابخانه های جرقه و بسته های جرقه ای The Spark Libraries and Spark Packages

  • بردن Takeaway

گرفتن تکنیک با Spark Getting Technical with Spark

  • دریافت فنی: معماری جرقه ای Getting Technical: Spark Architecture

  • ذخیره سازی در قالب های Spark و داده های پشتیبانی شده Storage in Spark and Supported Data Formats

  • بیایید با API ها صحبت کنیم: رابط های برنامه کاربردی Spark سطح پایین و سطح بالا Let's Talk APIs: Low-level and High-level Spark APIs

  • بهینه سازی عملکرد: تنگستن و کاتالیزور Performance Optimizations: Tungsten and Catalyst

  • SparkContext و SparkSession: امتیاز ورود به برنامه های Spark SparkContext and SparkSession: Entry Points to Spark Apps

  • Spark Configuration + Client و Cluster Deployment Modes Spark Configuration + Client and Cluster Deployment Modes

  • Spark on Yarn: The Cluster Manager Spark on Yarn: The Cluster Manager

  • با Cloudera Manager و YARN UI جرقه بزنید Spark with Cloudera Manager and YARN UI

  • تجسم برنامه Spark: وب رابط کاربر و سرور تاریخچه Visualizing Your Spark App: Web UI and History Server

  • ورود به سیستم Spark و با Cloudera Logging in Spark and with Cloudera

  • پیمایش در اسناد Spark و Cloudera Navigating the Spark and Cloudera Documentation

  • بردن Takeaway

یادگیری هسته Spark: RDD Learning the Core of Spark: RDDs

  • یادگیری هسته Spark: RDD Learning the Core of Spark: RDDs

  • SparkContext: نقطه ورود به یک برنامه Spark SparkContext: The Entry Point to a Spark Application

  • RDD و PairRDD - مجموعه داده های توزیع شده انعطاف پذیر RDD and PairRDD - Resilient Distributed Datasets

  • ایجاد RDD با Parallelize Creating RDDs with Parallelize

  • برگرداندن داده ها به درایور ، به عنوان مثال جمع آوری () ، گرفتن () ، اول () ... Returning Data to the Driver, i.e. collect(), take(), first()...

  • پارتیشن ها ، مجدد پارتیشن ، ادغام ، ذخیره به عنوان متن و HUE Partitions, Repartition, Coalesce, Saving as Text, and HUE

  • ایجاد RDD از مجموعه داده های خارجی Creating RDDs from External Datasets

  • ذخیره داده ها به عنوان PickleFile ، NewAPIHadoopFile ، SequenceFile ، ... Saving Data as PickleFile, NewAPIHadoopFile, SequenceFile, ...

  • ایجاد RDD با تحولات Creating RDDs with Transformations

  • کمی بیشتر در مورد تبار و وابستگی ها A Little Bit More on Lineage and Dependencies

  • بردن Takeaway

رفتن عمیق تر به هسته جرقه Going Deeper into Spark Core

  • رفتن عمیق تر به هسته جرقه Going Deeper into Spark Core

  • برنامه نویسی عملکردی: توابع ناشناس (Lambda) در Spark Functional Programming: Anonymous Functions (Lambda) in Spark

  • نگاهی گذرا به نقشه ، FlatMap ، فیلتر و مرتب سازی A Quick Look at Map, FlatMap, Filter, and Sort

  • چگونه می توانم تشخیص دهم که یک تحول است How I Can Tell It Is a Transformation

  • چرا به اقدامات نیاز داریم؟ Why Do We Need Actions?

  • عملیات پارتیشن: MapPartitions و PartitionBy Partition Operations: MapPartitions and PartitionBy

  • از داده های خود نمونه برداری کنید Sampling Your Data

  • تنظیم عملیات: عضویت ، اتحادیه ، کاملا راست ، چپ بیرونی و دکارتی Set Operations: Join, Union, Full Right, Left Outer, and Cartesian

  • ترکیب ، تجمیع ، کاهش و گروه بندی در PairRDDs Combining, Aggregating, Reducing, and Grouping on PairRDDs

  • ReduceByKey در مقابل GroupByKey: کدام یک بهتر است؟ ReduceByKey vs. GroupByKey: Which One Is Better?

  • گروه بندی داده ها در سطل ها با هیستوگرام Grouping Data into Buckets with Histogram

  • ذخیره سازی و ماندگاری داده ها Caching and Data Persistence

  • متغیرهای مشترک: باتری ها و متغیرهای پخش Shared Variables: Accumulators and Broadcast Variables

  • در حال توسعه برنامه ، بسته ها و پرونده های PySpark مستقل Developing Self-contained PySpark Application, Packages, and Files

  • معایب RDD - بنابراین چه چیزی بهتر است؟ Disadvantages of RDDs - So What's Better?

  • بردن Takeaway

افزایش مهارت با Spark: DataFrames & Spark SQL Increasing Proficiency with Spark: DataFrames & Spark SQL

  • افزایش مهارت با Spark: DataFrames Spark SQL Increasing Proficiency with Spark: DataFrames & Spark SQL

  • "همه" از SQL و نحوه شروع آن استفاده می کنند "Everyone" Uses SQL and How It All Began

  • سلام DataFrames و Spark SQL Hello DataFrames and Spark SQL

  • SparkSession: نقطه ورود به Spark SQL و DataFrame API SparkSession: The Entry Point to the Spark SQL and DataFrame API

  • ایجاد DataFrames Creating DataFrames

  • DataFrames به RDD و Viceversa DataFrames to RDDs and Viceversa

  • بارگذاری فریم های داده: متن و CSV Loading DataFrames: Text and CSV

  • طرحواره ها: استنباط شده و به صورت برنامه ای + گزینه Schemas: Inferred and Programatically Specified + Option

  • بارگیری اطلاعات بیشتر: پارکت و JSON More Data Loading: Parquet and JSON

  • ردیف ها ، ستون ها ، عبارات و اپراتورها Rows, Columns, Expressions, and Operators

  • کار با ستون ها Working with Columns

  • بیشتر ستون ها ، عبارات ، شبیه سازی ، تغییر نام ، ریخته گری ، رها کردن More Columns, Expressions, Cloning, Renaming, Casting, & Dropping

  • توابع تعریف شده توسط کاربر (UDF) در Spark SQL User Defined Functions (UDFs) on Spark SQL

  • بردن Takeaway

ادامه سفر در DataFrames و Spark SQL Continuing the Journey on DataFrames and Spark SQL

  • پرس و جو ، مرتب سازی و فیلتر کردن قاب داده ها: DSL Querying, Sorting, and Filtering DataFrames: The DSL

  • با داده های از دست رفته یا خراب چه کاری باید انجام داد What to Do with Missing or Corrupt Data

  • ذخیره DataFrames Saving DataFrames

  • Spark SQL: پرس و جو با استفاده از نماهای موقتی Spark SQL: Querying Using Temporary Views

  • بارگذاری پرونده ها و نمایش ها در DataFrames با استفاده از Spark SQL Loading Files and Views into DataFrames Using Spark SQL

  • ذخیره در جداول پایدار + شماره شناخته شده Spark 2 Saving to Persistent Tables + Spark 2 Known Issue

  • پشتیبانی کندو و پایگاه داده های خارجی Hive Support and External Databases

  • جمع کردن ، گروه بندی و پیوستن Aggregating, Grouping, and Joining

  • API کاتالوگ The Catalog API

  • بردن Takeaway

درک یک API تایپ شده: مجموعه داده ها با Scala کار می کنند ، نه پایتون Understanding a Typed API: Datasets Works with Scala, Not Python

  • درک یک API تایپ شده: مجموعه داده ها؛ با Scala ، نه Python کار می کند Understanding a Typed API: Datasets; Works with Scala, Not Python

  • اسکالا رو گرفتی؟ Got Scala?

  • نگاهی گذرا به مجموعه داده ها A Quick Look at Datasets

  • بردن Takeaway

آماده سازی نهایی و ادامه سفر با جرقه Final Takeaway and Continuing the Journey with Spark

  • غذای آماده نهایی Final Takeaway

  • ادامه سفر با جرقه Continuing the Journey with Spark

نمایش نظرات

آموزش توسعه برنامه های Spark با پایتون و Cloudera
جزییات دوره
5h 42m
108
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
38
4.4 از 5
دارد
دارد
دارد
Xavier Morera
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Xavier Morera Xavier Morera

خاویر بسیار علاقه مند به تدریس است ، به دیگران کمک می کند جستجو و Big Data را درک کنند. او همچنین یک کارآفرین ، مدیر پروژه ، نویسنده فنی ، مربی است و دارای چند گواهینامه با Cloudera ، Microsoft و Scrum Alliance ، همراه با MVP مایکروسافت است. او بخش عمده ای از حرفه خود را صرف کار بر روی پروژه های پیشرفته با تمرکز اصلی در .NET ، Solr و Hadoop در میان چند فناوری جالب دیگر کرده است. در طول چندین پروژه ، وی مهارت هایی را برای مقابله با راه حل های نرم افزاری پیچیده سازمانی ، کار با شرکت هایی که از شرکت های نوپا گرفته تا مایکروسافت کار می کنند ، کسب کرده است. خاویر همچنین به عنوان مربی v/trainer در سراسر جهان برای مایکروسافت کار می کرد.