دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش توسعه برنامه های Spark با پایتون و Cloudera - آخرین آپدیت

Developing Spark Applications with Python & Cloudera

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیویی برای نمایش وجود ندارد.

توضیحات دوره: Apache Spark یکی از سریعترین و کارآمدترین موتورهای عمومی برای پردازش داده در مقیاس بزرگ است. در این دوره ، شما می آموزید که چگونه با استفاده از Python و یک توزیع پایدار Hadoop ، Cloudera CDH ، برنامه های Spark را برای Big Data خود توسعه دهید. همه را بزرگ کنید بررسی اجمالی دوره 1m 59s چرا با پایتون و Cloudera جرقه بزنیم؟ 12 متر 47 دریافت محیط و داده: CDH + StackOverflow 42 متر 5 ثانیه تازه کردن دانش خود: مبانی پایتون برای این دوره 30 متر 22 ثانیه درک جرقه: یک مرور کلی 27m 47s گرفتن تکنیک با Spark 46 متر 9 ثانیه یادگیری هسته Spark: RDD 42m 41s رفتن عمیق تر به هسته جرقه 46 متر 57 افزایش مهارت با Spark: DataFrames & Spark SQL 38 متر 26 ثانیه ادامه سفر در DataFrames و Spark SQL 36 متر 0 ثانیه درک یک API تایپ شده: مجموعه داده ها با Scala کار می کنند ، نه پایتون 5m 51s آماده سازی نهایی و ادامه سفر با جرقه 11 متر 9 ثانیه علائم تجاری و نامهای تجاری اشخاص ثالث ذکر شده در این دوره متعلق به صاحبان مربوطه می باشند و Pluralsight وابسته یا تأیید شده توسط این احزاب نیست.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

بررسی اجمالی دوره Course Overview

چرا با پایتون و Cloudera جرقه بزنیم؟ Why Spark with Python and Cloudera?

چرا با پایتون و Cloudera جرقه بزنیم؟ Why Spark with Python and Cloudera?
اما چرا Apache Spark؟ But Why Apache Spark?
تاریخچه مختصر Spark Brief History of Spark
آنچه در این آموزش پوشش خواهیم داد What We Will Cover in This Training
چیدن زبان پشتیبانی شده از Spark: پایتون ، اسکالا ، جاوا یا R Picking a Spark Supported Language: Python, Scala, Java, or R
برای این دوره به چه چیزی نیاز دارید؟ What Do You Need for This Course?
بردن Takeaway

دریافت محیط و داده: CDH + StackOverflow Getting an Environment & Data: CDH + StackOverflow

دریافت محیط و داده: CDH + StackOverflow Getting an Environment and Data: CDH + StackOverflow
پیش نیازها و مسائل شناخته شده Prerequisites and Known Issues
به روزرسانی Cloudera Manager و CDH Upgrading Cloudera Manager and CDH
نصب یا ارتقا به جاوا 8 (JDK 1.8) Installing or Upgrading to Java 8 (JDK 1.8)
گرفتن جرقه - چندین گزینه وجود دارد: 1.6 Getting Spark - There Are Several Options: 1.6
دریافت Spark 2 به صورت مستقل Getting Spark 2 Standalone
نصب Spark 2 در Cloudera Installing Spark 2 on Cloudera
پاداش - IPython با Anaconda: شارژ PySpark شل خود را Bonus -> IPython with Anaconda: Supercharge Your PySpark Shell
داده ها: StackOverflow و StackExchange Dumps + Demo Files Data: StackOverflow and StackExchange Dumps + Demo Files
آماده سازی داده های بزرگ شما Preparing Your Big Data
بردن Takeaway

تازه کردن دانش خود: مبانی پایتون برای این دوره Refreshing Your Knowledge: Python Fundamentals for This Course

تازه کردن دانش خود: مبانی پایتون برای این دوره Refreshing Your Knowledge: Python Fundamentals for This Course
تاریخ پایتون ، فلسفه و پارادایم Python's History, Philosophy, and Paradigm
Python Shell: REPL The Python Shell: REPL
نحو ، متغیرها ، انواع (پویا) و اپراتورها Syntax, Variables, (Dynamic) Types, and Operators
متغیرهای مرکب: لیست ها ، Tuples و فرهنگ لغت ها Compound Variables: Lists, Tuples, and Dictionaries
بلوک کد ، توابع ، حلقه ها ، ژنراتورها و کنترل جریان Code Blocks, Functions, Loops, Generators, and Flow Control
نقشه ، فیلتر ، گروه بندی و کاهش دهید Map, Filter, Group, and Reduce
PySpark: Spark in the Shell را وارد کنید Enter PySpark: Spark in the Shell
بردن Takeaway

درک جرقه: یک مرور کلی Understanding Spark: An Overview

درک جرقه: یک مرور کلی Understanding Spark: An Overview
جرقه ، تعداد کلمات ، عملیات و تحولات Spark, Word Count, Operations, and Transformations
چند کلمه در مورد دانه های ریز دانه بندی و مقیاس پذیری A Few Words on Fine Grained Transformations and Scalability
شمارش کلمات در "داده های بزرگ نیست" Word Count in "Not Big Data"
نحوه شمارش کلمات ، دارای دگرگونی های دانه درشت How Word Count Works, Featuring Coarse Grained Transformations
موازی سازی با پارتیشن بندی داده ها Parallelism by Partitioning Data
Pipelining: یکی از اسرار عملکرد Spark Pipelining: One of the Secrets of Spark's Performance
تحولات باریک و گسترده Narrow and Wide Transformations
اعدام تنبل ، تبار ، نمودار حلقوی مستقیم (DAG) و تحمل خطا Lazy Execution, Lineage, Directed Acyclic Graph (DAG), and Fault Tolerance
کتابخانه های جرقه و بسته های جرقه ای The Spark Libraries and Spark Packages
بردن Takeaway

گرفتن تکنیک با Spark Getting Technical with Spark

دریافت فنی: معماری جرقه ای Getting Technical: Spark Architecture
ذخیره سازی در قالب های Spark و داده های پشتیبانی شده Storage in Spark and Supported Data Formats
بیایید با API ها صحبت کنیم: رابط های برنامه کاربردی Spark سطح پایین و سطح بالا Let's Talk APIs: Low-level and High-level Spark APIs
بهینه سازی عملکرد: تنگستن و کاتالیزور Performance Optimizations: Tungsten and Catalyst
SparkContext و SparkSession: امتیاز ورود به برنامه های Spark SparkContext and SparkSession: Entry Points to Spark Apps
Spark Configuration + Client و Cluster Deployment Modes Spark Configuration + Client and Cluster Deployment Modes
Spark on Yarn: The Cluster Manager Spark on Yarn: The Cluster Manager
با Cloudera Manager و YARN UI جرقه بزنید Spark with Cloudera Manager and YARN UI
تجسم برنامه Spark: وب رابط کاربر و سرور تاریخچه Visualizing Your Spark App: Web UI and History Server
ورود به سیستم Spark و با Cloudera Logging in Spark and with Cloudera
پیمایش در اسناد Spark و Cloudera Navigating the Spark and Cloudera Documentation
بردن Takeaway

یادگیری هسته Spark: RDD Learning the Core of Spark: RDDs

یادگیری هسته Spark: RDD Learning the Core of Spark: RDDs
SparkContext: نقطه ورود به یک برنامه Spark SparkContext: The Entry Point to a Spark Application
RDD و PairRDD - مجموعه داده های توزیع شده انعطاف پذیر RDD and PairRDD - Resilient Distributed Datasets
ایجاد RDD با Parallelize Creating RDDs with Parallelize
برگرداندن داده ها به درایور ، به عنوان مثال جمع آوری () ، گرفتن () ، اول () ... Returning Data to the Driver, i.e. collect(), take(), first()...
پارتیشن ها ، مجدد پارتیشن ، ادغام ، ذخیره به عنوان متن و HUE Partitions, Repartition, Coalesce, Saving as Text, and HUE
ایجاد RDD از مجموعه داده های خارجی Creating RDDs from External Datasets
ذخیره داده ها به عنوان PickleFile ، NewAPIHadoopFile ، SequenceFile ، ... Saving Data as PickleFile, NewAPIHadoopFile, SequenceFile, ...
ایجاد RDD با تحولات Creating RDDs with Transformations
کمی بیشتر در مورد تبار و وابستگی ها A Little Bit More on Lineage and Dependencies
بردن Takeaway

رفتن عمیق تر به هسته جرقه Going Deeper into Spark Core

رفتن عمیق تر به هسته جرقه Going Deeper into Spark Core
برنامه نویسی عملکردی: توابع ناشناس (Lambda) در Spark Functional Programming: Anonymous Functions (Lambda) in Spark
نگاهی گذرا به نقشه ، FlatMap ، فیلتر و مرتب سازی A Quick Look at Map, FlatMap, Filter, and Sort
چگونه می توانم تشخیص دهم که یک تحول است How I Can Tell It Is a Transformation
چرا به اقدامات نیاز داریم؟ Why Do We Need Actions?
عملیات پارتیشن: MapPartitions و PartitionBy Partition Operations: MapPartitions and PartitionBy
از داده های خود نمونه برداری کنید Sampling Your Data
تنظیم عملیات: عضویت ، اتحادیه ، کاملا راست ، چپ بیرونی و دکارتی Set Operations: Join, Union, Full Right, Left Outer, and Cartesian
ترکیب ، تجمیع ، کاهش و گروه بندی در PairRDDs Combining, Aggregating, Reducing, and Grouping on PairRDDs
ReduceByKey در مقابل GroupByKey: کدام یک بهتر است؟ ReduceByKey vs. GroupByKey: Which One Is Better?
گروه بندی داده ها در سطل ها با هیستوگرام Grouping Data into Buckets with Histogram
ذخیره سازی و ماندگاری داده ها Caching and Data Persistence
متغیرهای مشترک: باتری ها و متغیرهای پخش Shared Variables: Accumulators and Broadcast Variables
در حال توسعه برنامه ، بسته ها و پرونده های PySpark مستقل Developing Self-contained PySpark Application, Packages, and Files
معایب RDD - بنابراین چه چیزی بهتر است؟ Disadvantages of RDDs - So What's Better?
بردن Takeaway

افزایش مهارت با Spark: DataFrames & Spark SQL Increasing Proficiency with Spark: DataFrames & Spark SQL

افزایش مهارت با Spark: DataFrames Spark SQL Increasing Proficiency with Spark: DataFrames & Spark SQL
"همه" از SQL و نحوه شروع آن استفاده می کنند "Everyone" Uses SQL and How It All Began
سلام DataFrames و Spark SQL Hello DataFrames and Spark SQL
SparkSession: نقطه ورود به Spark SQL و DataFrame API SparkSession: The Entry Point to the Spark SQL and DataFrame API
ایجاد DataFrames Creating DataFrames
DataFrames به RDD و Viceversa DataFrames to RDDs and Viceversa
بارگذاری فریم های داده: متن و CSV Loading DataFrames: Text and CSV
طرحواره ها: استنباط شده و به صورت برنامه ای + گزینه Schemas: Inferred and Programatically Specified + Option
بارگیری اطلاعات بیشتر: پارکت و JSON More Data Loading: Parquet and JSON
ردیف ها ، ستون ها ، عبارات و اپراتورها Rows, Columns, Expressions, and Operators
کار با ستون ها Working with Columns
بیشتر ستون ها ، عبارات ، شبیه سازی ، تغییر نام ، ریخته گری ، رها کردن More Columns, Expressions, Cloning, Renaming, Casting, & Dropping
توابع تعریف شده توسط کاربر (UDF) در Spark SQL User Defined Functions (UDFs) on Spark SQL
بردن Takeaway

ادامه سفر در DataFrames و Spark SQL Continuing the Journey on DataFrames and Spark SQL

پرس و جو ، مرتب سازی و فیلتر کردن قاب داده ها: DSL Querying, Sorting, and Filtering DataFrames: The DSL
با داده های از دست رفته یا خراب چه کاری باید انجام داد What to Do with Missing or Corrupt Data
ذخیره DataFrames Saving DataFrames
Spark SQL: پرس و جو با استفاده از نماهای موقتی Spark SQL: Querying Using Temporary Views
بارگذاری پرونده ها و نمایش ها در DataFrames با استفاده از Spark SQL Loading Files and Views into DataFrames Using Spark SQL
ذخیره در جداول پایدار + شماره شناخته شده Spark 2 Saving to Persistent Tables + Spark 2 Known Issue
پشتیبانی کندو و پایگاه داده های خارجی Hive Support and External Databases
جمع کردن ، گروه بندی و پیوستن Aggregating, Grouping, and Joining
API کاتالوگ The Catalog API
بردن Takeaway

درک یک API تایپ شده: مجموعه داده ها با Scala کار می کنند ، نه پایتون Understanding a Typed API: Datasets Works with Scala, Not Python

درک یک API تایپ شده: مجموعه داده ها؛ با Scala ، نه Python کار می کند Understanding a Typed API: Datasets; Works with Scala, Not Python
اسکالا رو گرفتی؟ Got Scala?
نگاهی گذرا به مجموعه داده ها A Quick Look at Datasets
بردن Takeaway

آماده سازی نهایی و ادامه سفر با جرقه Final Takeaway and Continuing the Journey with Spark

غذای آماده نهایی Final Takeaway
ادامه سفر با جرقه Continuing the Journey with Spark

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش توسعه برنامه های Spark با پایتون و Cloudera

جزییات دوره

زمان دوره: 5h 42m

تعداد ویدیو ها: 108

شرکت: Pluralsight (پلورال سایت)

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع : 38

امتیاز مرجع: 4.4 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Xavier Morera

لینک کوتاه این دوره

https://donyad.com/d/79b8

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Xavier Morera

خاویر بسیار علاقه مند به تدریس است ، به دیگران کمک می کند جستجو و Big Data را درک کنند. او همچنین یک کارآفرین ، مدیر پروژه ، نویسنده فنی ، مربی است و دارای چند گواهینامه با Cloudera ، Microsoft و Scrum Alliance ، همراه با MVP مایکروسافت است. او بخش عمده ای از حرفه خود را صرف کار بر روی پروژه های پیشرفته با تمرکز اصلی در .NET ، Solr و Hadoop در میان چند فناوری جالب دیگر کرده است. در طول چندین پروژه ، وی مهارت هایی را برای مقابله با راه حل های نرم افزاری پیچیده سازمانی ، کار با شرکت هایی که از شرکت های نوپا گرفته تا مایکروسافت کار می کنند ، کسب کرده است. خاویر همچنین به عنوان مربی v/trainer در سراسر جهان برای مایکروسافت کار می کرد.

دنیاد

آموزش توسعه برنامه های Spark با پایتون و Cloudera - آخرین آپدیت

Developing Spark Applications with Python & Cloudera

بررسی اجمالی دوره Course Overview

بررسی اجمالی دوره Course Overview

چرا با پایتون و Cloudera جرقه بزنیم؟ Why Spark with Python and Cloudera?

چرا با پایتون و Cloudera جرقه بزنیم؟ Why Spark with Python and Cloudera?

اما چرا Apache Spark؟ But Why Apache Spark?

تاریخچه مختصر Spark Brief History of Spark

آنچه در این آموزش پوشش خواهیم داد What We Will Cover in This Training

چیدن زبان پشتیبانی شده از Spark: پایتون ، اسکالا ، جاوا یا R Picking a Spark Supported Language: Python, Scala, Java, or R

برای این دوره به چه چیزی نیاز دارید؟ What Do You Need for This Course?

بردن Takeaway

دریافت محیط و داده: CDH + StackOverflow Getting an Environment & Data: CDH + StackOverflow

دریافت محیط و داده: CDH + StackOverflow Getting an Environment and Data: CDH + StackOverflow

پیش نیازها و مسائل شناخته شده Prerequisites and Known Issues

به روزرسانی Cloudera Manager و CDH Upgrading Cloudera Manager and CDH

نصب یا ارتقا به جاوا 8 (JDK 1.8) Installing or Upgrading to Java 8 (JDK 1.8)

گرفتن جرقه - چندین گزینه وجود دارد: 1.6 Getting Spark - There Are Several Options: 1.6

دریافت Spark 2 به صورت مستقل Getting Spark 2 Standalone

نصب Spark 2 در Cloudera Installing Spark 2 on Cloudera

پاداش - IPython با Anaconda: شارژ PySpark شل خود را Bonus -&gt; IPython with Anaconda: Supercharge Your PySpark Shell

داده ها: StackOverflow و StackExchange Dumps + Demo Files Data: StackOverflow and StackExchange Dumps + Demo Files

آماده سازی داده های بزرگ شما Preparing Your Big Data

بردن Takeaway

تازه کردن دانش خود: مبانی پایتون برای این دوره Refreshing Your Knowledge: Python Fundamentals for This Course

تازه کردن دانش خود: مبانی پایتون برای این دوره Refreshing Your Knowledge: Python Fundamentals for This Course

تاریخ پایتون ، فلسفه و پارادایم Python's History, Philosophy, and Paradigm

Python Shell: REPL The Python Shell: REPL

نحو ، متغیرها ، انواع (پویا) و اپراتورها Syntax, Variables, (Dynamic) Types, and Operators

متغیرهای مرکب: لیست ها ، Tuples و فرهنگ لغت ها Compound Variables: Lists, Tuples, and Dictionaries

بلوک کد ، توابع ، حلقه ها ، ژنراتورها و کنترل جریان Code Blocks, Functions, Loops, Generators, and Flow Control

نقشه ، فیلتر ، گروه بندی و کاهش دهید Map, Filter, Group, and Reduce

PySpark: Spark in the Shell را وارد کنید Enter PySpark: Spark in the Shell

بردن Takeaway

درک جرقه: یک مرور کلی Understanding Spark: An Overview

درک جرقه: یک مرور کلی Understanding Spark: An Overview

جرقه ، تعداد کلمات ، عملیات و تحولات Spark, Word Count, Operations, and Transformations

چند کلمه در مورد دانه های ریز دانه بندی و مقیاس پذیری A Few Words on Fine Grained Transformations and Scalability

شمارش کلمات در "داده های بزرگ نیست" Word Count in "Not Big Data"

نحوه شمارش کلمات ، دارای دگرگونی های دانه درشت How Word Count Works, Featuring Coarse Grained Transformations

موازی سازی با پارتیشن بندی داده ها Parallelism by Partitioning Data

Pipelining: یکی از اسرار عملکرد Spark Pipelining: One of the Secrets of Spark's Performance

تحولات باریک و گسترده Narrow and Wide Transformations

اعدام تنبل ، تبار ، نمودار حلقوی مستقیم (DAG) و تحمل خطا Lazy Execution, Lineage, Directed Acyclic Graph (DAG), and Fault Tolerance

کتابخانه های جرقه و بسته های جرقه ای The Spark Libraries and Spark Packages

بردن Takeaway

گرفتن تکنیک با Spark Getting Technical with Spark

دریافت فنی: معماری جرقه ای Getting Technical: Spark Architecture

ذخیره سازی در قالب های Spark و داده های پشتیبانی شده Storage in Spark and Supported Data Formats

بیایید با API ها صحبت کنیم: رابط های برنامه کاربردی Spark سطح پایین و سطح بالا Let's Talk APIs: Low-level and High-level Spark APIs

بهینه سازی عملکرد: تنگستن و کاتالیزور Performance Optimizations: Tungsten and Catalyst

SparkContext و SparkSession: امتیاز ورود به برنامه های Spark SparkContext and SparkSession: Entry Points to Spark Apps

Spark Configuration + Client و Cluster Deployment Modes Spark Configuration + Client and Cluster Deployment Modes

Spark on Yarn: The Cluster Manager Spark on Yarn: The Cluster Manager

با Cloudera Manager و YARN UI جرقه بزنید Spark with Cloudera Manager and YARN UI

تجسم برنامه Spark: وب رابط کاربر و سرور تاریخچه Visualizing Your Spark App: Web UI and History Server

ورود به سیستم Spark و با Cloudera Logging in Spark and with Cloudera

پیمایش در اسناد Spark و Cloudera Navigating the Spark and Cloudera Documentation

بردن Takeaway

یادگیری هسته Spark: RDD Learning the Core of Spark: RDDs

یادگیری هسته Spark: RDD Learning the Core of Spark: RDDs

SparkContext: نقطه ورود به یک برنامه Spark SparkContext: The Entry Point to a Spark Application

RDD و PairRDD - مجموعه داده های توزیع شده انعطاف پذیر RDD and PairRDD - Resilient Distributed Datasets

ایجاد RDD با Parallelize Creating RDDs with Parallelize

برگرداندن داده ها به درایور ، به عنوان مثال جمع آوری () ، گرفتن () ، اول () ... Returning Data to the Driver, i.e. collect(), take(), first()...

پارتیشن ها ، مجدد پارتیشن ، ادغام ، ذخیره به عنوان متن و HUE Partitions, Repartition, Coalesce, Saving as Text, and HUE

ایجاد RDD از مجموعه داده های خارجی Creating RDDs from External Datasets

ذخیره داده ها به عنوان PickleFile ، NewAPIHadoopFile ، SequenceFile ، ... Saving Data as PickleFile, NewAPIHadoopFile, SequenceFile, ...

ایجاد RDD با تحولات Creating RDDs with Transformations

کمی بیشتر در مورد تبار و وابستگی ها A Little Bit More on Lineage and Dependencies

بردن Takeaway

رفتن عمیق تر به هسته جرقه Going Deeper into Spark Core

رفتن عمیق تر به هسته جرقه Going Deeper into Spark Core

برنامه نویسی عملکردی: توابع ناشناس (Lambda) در Spark Functional Programming: Anonymous Functions (Lambda) in Spark

نگاهی گذرا به نقشه ، FlatMap ، فیلتر و مرتب سازی A Quick Look at Map, FlatMap, Filter, and Sort

چگونه می توانم تشخیص دهم که یک تحول است How I Can Tell It Is a Transformation

چرا به اقدامات نیاز داریم؟ Why Do We Need Actions?

عملیات پارتیشن: MapPartitions و PartitionBy Partition Operations: MapPartitions and PartitionBy

از داده های خود نمونه برداری کنید Sampling Your Data

تنظیم عملیات: عضویت ، اتحادیه ، کاملا راست ، چپ بیرونی و دکارتی Set Operations: Join, Union, Full Right, Left Outer, and Cartesian

پاداش - IPython با Anaconda: شارژ PySpark شل خود را Bonus -> IPython with Anaconda: Supercharge Your PySpark Shell

افزایش مهارت با Spark: DataFrames Spark SQL Increasing Proficiency with Spark: DataFrames & Spark SQL

بیشتر ستون ها ، عبارات ، شبیه سازی ، تغییر نام ، ریخته گری ، رها کردن More Columns, Expressions, Cloning, Renaming, Casting, & Dropping