آموزش توسعه برنامه های Spark با پایتون و Cloudera

Developing Spark Applications with Python & Cloudera

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره: Apache Spark یکی از سریعترین و کارآمدترین موتورهای عمومی برای پردازش داده در مقیاس بزرگ است. در این دوره ، شما می آموزید که چگونه با استفاده از Python و یک توزیع پایدار Hadoop ، Cloudera CDH ، برنامه های Spark را برای Big Data خود توسعه دهید. همه را بزرگ کنید بررسی اجمالی دوره 1m 59s چرا با پایتون و Cloudera جرقه بزنیم؟ 12 متر 47 دریافت محیط و داده: CDH + StackOverflow 42 متر 5 ثانیه تازه کردن دانش خود: مبانی پایتون برای این دوره 30 متر 22 ثانیه درک جرقه: یک مرور کلی 27m 47s گرفتن تکنیک با Spark 46 متر 9 ثانیه یادگیری هسته Spark: RDD 42m 41s رفتن عمیق تر به هسته جرقه 46 متر 57 افزایش مهارت با Spark: DataFrames & Spark SQL 38 متر 26 ثانیه ادامه سفر در DataFrames و Spark SQL 36 متر 0 ثانیه درک یک API تایپ شده: مجموعه داده ها با Scala کار می کنند ، نه پایتون 5m 51s آماده سازی نهایی و ادامه سفر با جرقه 11 متر 9 ثانیه علائم تجاری و نامهای تجاری اشخاص ثالث ذکر شده در این دوره متعلق به صاحبان مربوطه می باشند و Pluralsight وابسته یا تأیید شده توسط این احزاب نیست.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

چرا با پایتون و Cloudera جرقه بزنیم؟ Why Spark with Python and Cloudera?

  • چرا با پایتون و Cloudera جرقه بزنیم؟ Why Spark with Python and Cloudera?

  • اما چرا Apache Spark؟ But Why Apache Spark?

  • تاریخچه مختصر Spark Brief History of Spark

  • آنچه در این آموزش پوشش خواهیم داد What We Will Cover in This Training

  • چیدن زبان پشتیبانی شده از Spark: پایتون ، اسکالا ، جاوا یا R Picking a Spark Supported Language: Python, Scala, Java, or R

  • برای این دوره به چه چیزی نیاز دارید؟ What Do You Need for This Course?

  • بردن Takeaway

دریافت محیط و داده: CDH + StackOverflow Getting an Environment & Data: CDH + StackOverflow

  • دریافت محیط و داده: CDH + StackOverflow Getting an Environment and Data: CDH + StackOverflow

  • پیش نیازها و مسائل شناخته شده Prerequisites and Known Issues

  • به روزرسانی Cloudera Manager و CDH Upgrading Cloudera Manager and CDH

  • نصب یا ارتقا به جاوا 8 (JDK 1.8) Installing or Upgrading to Java 8 (JDK 1.8)

  • گرفتن جرقه - چندین گزینه وجود دارد: 1.6 Getting Spark - There Are Several Options: 1.6

  • دریافت Spark 2 به صورت مستقل Getting Spark 2 Standalone

  • نصب Spark 2 در Cloudera Installing Spark 2 on Cloudera

  • پاداش - IPython با Anaconda: شارژ PySpark شل خود را Bonus -> IPython with Anaconda: Supercharge Your PySpark Shell

  • داده ها: StackOverflow و StackExchange Dumps + Demo Files Data: StackOverflow and StackExchange Dumps + Demo Files

  • آماده سازی داده های بزرگ شما Preparing Your Big Data

  • بردن Takeaway

تازه کردن دانش خود: مبانی پایتون برای این دوره Refreshing Your Knowledge: Python Fundamentals for This Course

  • تازه کردن دانش خود: مبانی پایتون برای این دوره Refreshing Your Knowledge: Python Fundamentals for This Course

  • تاریخ پایتون ، فلسفه و پارادایم Python's History, Philosophy, and Paradigm

  • Python Shell: REPL The Python Shell: REPL

  • نحو ، متغیرها ، انواع (پویا) و اپراتورها Syntax, Variables, (Dynamic) Types, and Operators

  • متغیرهای مرکب: لیست ها ، Tuples و فرهنگ لغت ها Compound Variables: Lists, Tuples, and Dictionaries

  • بلوک کد ، توابع ، حلقه ها ، ژنراتورها و کنترل جریان Code Blocks, Functions, Loops, Generators, and Flow Control

  • نقشه ، فیلتر ، گروه بندی و کاهش دهید Map, Filter, Group, and Reduce

  • PySpark: Spark in the Shell را وارد کنید Enter PySpark: Spark in the Shell

  • بردن Takeaway

درک جرقه: یک مرور کلی Understanding Spark: An Overview

  • درک جرقه: یک مرور کلی Understanding Spark: An Overview

  • جرقه ، تعداد کلمات ، عملیات و تحولات Spark, Word Count, Operations, and Transformations

  • چند کلمه در مورد دانه های ریز دانه بندی و مقیاس پذیری A Few Words on Fine Grained Transformations and Scalability

  • شمارش کلمات در "داده های بزرگ نیست" Word Count in "Not Big Data"

  • نحوه شمارش کلمات ، دارای دگرگونی های دانه درشت How Word Count Works, Featuring Coarse Grained Transformations

  • موازی سازی با پارتیشن بندی داده ها Parallelism by Partitioning Data

  • Pipelining: یکی از اسرار عملکرد Spark Pipelining: One of the Secrets of Spark's Performance

  • تحولات باریک و گسترده Narrow and Wide Transformations

  • اعدام تنبل ، تبار ، نمودار حلقوی مستقیم (DAG) و تحمل خطا Lazy Execution, Lineage, Directed Acyclic Graph (DAG), and Fault Tolerance

  • کتابخانه های جرقه و بسته های جرقه ای The Spark Libraries and Spark Packages

  • بردن Takeaway

گرفتن تکنیک با Spark Getting Technical with Spark

  • دریافت فنی: معماری جرقه ای Getting Technical: Spark Architecture

  • ذخیره سازی در قالب های Spark و داده های پشتیبانی شده Storage in Spark and Supported Data Formats

  • بیایید با API ها صحبت کنیم: رابط های برنامه کاربردی Spark سطح پایین و سطح بالا Let's Talk APIs: Low-level and High-level Spark APIs

  • بهینه سازی عملکرد: تنگستن و کاتالیزور Performance Optimizations: Tungsten and Catalyst

  • SparkContext و SparkSession: امتیاز ورود به برنامه های Spark SparkContext and SparkSession: Entry Points to Spark Apps

  • Spark Configuration + Client و Cluster Deployment Modes Spark Configuration + Client and Cluster Deployment Modes

  • Spark on Yarn: The Cluster Manager Spark on Yarn: The Cluster Manager

  • با Cloudera Manager و YARN UI جرقه بزنید Spark with Cloudera Manager and YARN UI

  • تجسم برنامه Spark: وب رابط کاربر و سرور تاریخچه Visualizing Your Spark App: Web UI and History Server

  • ورود به سیستم Spark و با Cloudera Logging in Spark and with Cloudera

  • پیمایش در اسناد Spark و Cloudera Navigating the Spark and Cloudera Documentation

  • بردن Takeaway

یادگیری هسته Spark: RDD Learning the Core of Spark: RDDs

  • یادگیری هسته Spark: RDD Learning the Core of Spark: RDDs

  • SparkContext: نقطه ورود به یک برنامه Spark SparkContext: The Entry Point to a Spark Application

  • RDD و PairRDD - مجموعه داده های توزیع شده انعطاف پذیر RDD and PairRDD - Resilient Distributed Datasets

  • ایجاد RDD با Parallelize Creating RDDs with Parallelize

  • برگرداندن داده ها به درایور ، به عنوان مثال جمع آوری () ، گرفتن () ، اول () ... Returning Data to the Driver, i.e. collect(), take(), first()...

  • پارتیشن ها ، مجدد پارتیشن ، ادغام ، ذخیره به عنوان متن و HUE Partitions, Repartition, Coalesce, Saving as Text, and HUE

  • ایجاد RDD از مجموعه داده های خارجی Creating RDDs from External Datasets

  • ذخیره داده ها به عنوان PickleFile ، NewAPIHadoopFile ، SequenceFile ، ... Saving Data as PickleFile, NewAPIHadoopFile, SequenceFile, ...

  • ایجاد RDD با تحولات Creating RDDs with Transformations

  • کمی بیشتر در مورد تبار و وابستگی ها A Little Bit More on Lineage and Dependencies

  • بردن Takeaway

رفتن عمیق تر به هسته جرقه Going Deeper into Spark Core

  • رفتن عمیق تر به هسته جرقه Going Deeper into Spark Core

  • برنامه نویسی عملکردی: توابع ناشناس (Lambda) در Spark Functional Programming: Anonymous Functions (Lambda) in Spark

  • نگاهی گذرا به نقشه ، FlatMap ، فیلتر و مرتب سازی A Quick Look at Map, FlatMap, Filter, and Sort

  • چگونه می توانم تشخیص دهم که یک تحول است How I Can Tell It Is a Transformation

  • چرا به اقدامات نیاز داریم؟ Why Do We Need Actions?

  • عملیات پارتیشن: MapPartitions و PartitionBy Partition Operations: MapPartitions and PartitionBy

  • از داده های خود نمونه برداری کنید Sampling Your Data

  • تنظیم عملیات: عضویت ، اتحادیه ، کاملا راست ، چپ بیرونی و دکارتی Set Operations: Join, Union, Full Right, Left Outer, and Cartesian

  • ترکیب ، تجمیع ، کاهش و گروه بندی در PairRDDs Combining, Aggregating, Reducing, and Grouping on PairRDDs

  • ReduceByKey در مقابل GroupByKey: کدام یک بهتر است؟ ReduceByKey vs. GroupByKey: Which One Is Better?

  • گروه بندی داده ها در سطل ها با هیستوگرام Grouping Data into Buckets with Histogram

  • ذخیره سازی و ماندگاری داده ها Caching and Data Persistence

  • متغیرهای مشترک: باتری ها و متغیرهای پخش Shared Variables: Accumulators and Broadcast Variables

  • در حال توسعه برنامه ، بسته ها و پرونده های PySpark مستقل Developing Self-contained PySpark Application, Packages, and Files

  • معایب RDD - بنابراین چه چیزی بهتر است؟ Disadvantages of RDDs - So What's Better?

  • بردن Takeaway

افزایش مهارت با Spark: DataFrames & Spark SQL Increasing Proficiency with Spark: DataFrames & Spark SQL

  • افزایش مهارت با Spark: DataFrames Spark SQL Increasing Proficiency with Spark: DataFrames & Spark SQL

  • "همه" از SQL و نحوه شروع آن استفاده می کنند "Everyone" Uses SQL and How It All Began

  • سلام DataFrames و Spark SQL Hello DataFrames and Spark SQL

  • SparkSession: نقطه ورود به Spark SQL و DataFrame API SparkSession: The Entry Point to the Spark SQL and DataFrame API

  • ایجاد DataFrames Creating DataFrames

  • DataFrames به RDD و Viceversa DataFrames to RDDs and Viceversa

  • بارگذاری فریم های داده: متن و CSV Loading DataFrames: Text and CSV

  • طرحواره ها: استنباط شده و به صورت برنامه ای + گزینه Schemas: Inferred and Programatically Specified + Option

  • بارگیری اطلاعات بیشتر: پارکت و JSON More Data Loading: Parquet and JSON

  • ردیف ها ، ستون ها ، عبارات و اپراتورها Rows, Columns, Expressions, and Operators

  • کار با ستون ها Working with Columns

  • بیشتر ستون ها ، عبارات ، شبیه سازی ، تغییر نام ، ریخته گری ، رها کردن More Columns, Expressions, Cloning, Renaming, Casting, & Dropping

  • توابع تعریف شده توسط کاربر (UDF) در Spark SQL User Defined Functions (UDFs) on Spark SQL

  • بردن Takeaway

ادامه سفر در DataFrames و Spark SQL Continuing the Journey on DataFrames and Spark SQL

  • پرس و جو ، مرتب سازی و فیلتر کردن قاب داده ها: DSL Querying, Sorting, and Filtering DataFrames: The DSL

  • با داده های از دست رفته یا خراب چه کاری باید انجام داد What to Do with Missing or Corrupt Data

  • ذخیره DataFrames Saving DataFrames

  • Spark SQL: پرس و جو با استفاده از نماهای موقتی Spark SQL: Querying Using Temporary Views

  • بارگذاری پرونده ها و نمایش ها در DataFrames با استفاده از Spark SQL Loading Files and Views into DataFrames Using Spark SQL

  • ذخیره در جداول پایدار + شماره شناخته شده Spark 2 Saving to Persistent Tables + Spark 2 Known Issue

  • پشتیبانی کندو و پایگاه داده های خارجی Hive Support and External Databases

  • جمع کردن ، گروه بندی و پیوستن Aggregating, Grouping, and Joining

  • API کاتالوگ The Catalog API

  • بردن Takeaway

درک یک API تایپ شده: مجموعه داده ها با Scala کار می کنند ، نه پایتون Understanding a Typed API: Datasets Works with Scala, Not Python

  • درک یک API تایپ شده: مجموعه داده ها؛ با Scala ، نه Python کار می کند Understanding a Typed API: Datasets; Works with Scala, Not Python

  • اسکالا رو گرفتی؟ Got Scala?

  • نگاهی گذرا به مجموعه داده ها A Quick Look at Datasets

  • بردن Takeaway

آماده سازی نهایی و ادامه سفر با جرقه Final Takeaway and Continuing the Journey with Spark

  • غذای آماده نهایی Final Takeaway

  • ادامه سفر با جرقه Continuing the Journey with Spark

نمایش نظرات

نظری ارسال نشده است.

آموزش توسعه برنامه های Spark با پایتون و Cloudera
خرید اشتراک و دانلود خرید تکی و دانلود | 160,000 تومان (5 روز مهلت دانلود) زمان تقریبی آماده سازی لینک دانلود این دوره آموزشی حدود 5 تا 24 ساعت می باشد.
جزییات دوره
5h 42m
108
Pluralsight (پلورال سایت) pluralsight-small
08 اسفند 1396 (آخرین آپدیت رو دریافت می‌کنید، حتی اگر این تاریخ بروز نباشد.)
38
4.4 از 5
دارد
دارد
دارد
Xavier Morera

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Xavier Morera Xavier Morera

خاویر بسیار علاقه مند به تدریس است ، به دیگران کمک می کند جستجو و Big Data را درک کنند. او همچنین یک کارآفرین ، مدیر پروژه ، نویسنده فنی ، مربی است و دارای چند گواهینامه با Cloudera ، Microsoft و Scrum Alliance ، همراه با MVP مایکروسافت است. او بخش عمده ای از حرفه خود را صرف کار بر روی پروژه های پیشرفته با تمرکز اصلی در .NET ، Solr و Hadoop در میان چند فناوری جالب دیگر کرده است. در طول چندین پروژه ، وی مهارت هایی را برای مقابله با راه حل های نرم افزاری پیچیده سازمانی ، کار با شرکت هایی که از شرکت های نوپا گرفته تا مایکروسافت کار می کنند ، کسب کرده است. خاویر همچنین به عنوان مربی v/trainer در سراسر جهان برای مایکروسافت کار می کرد.

Pluralsight (پلورال سایت)

Pluralsight یکی از پرطرفدارترین پلتفرم‌های آموزش آنلاین است که به میلیون‌ها کاربر در سراسر جهان کمک می‌کند تا مهارت‌های خود را توسعه دهند و به روز رسانی کنند. این پلتفرم دوره‌های آموزشی در زمینه‌های فناوری اطلاعات، توسعه نرم‌افزار، طراحی وب، مدیریت پروژه، و موضوعات مختلف دیگر را ارائه می‌دهد.

یکی از ویژگی‌های برجسته Pluralsight، محتوای بروز و با کیفیت آموزشی آن است. این پلتفرم با همکاری با توسعه‌دهندگان و کارشناسان معتبر، دوره‌هایی را ارائه می‌دهد که با توجه به تغییرات روزافزون در صنعت فناوری، کاربران را در جریان آخرین مفاهیم و تکنولوژی‌ها نگه می‌دارد. این امر به کاربران این اطمینان را می‌دهد که دوره‌هایی که در Pluralsight می‌پذیرند، با جدیدترین دانش‌ها و تجارب به روز شده‌اند.