نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره:
Apache Spark یکی از سریعترین و کارآمدترین موتورهای عمومی برای پردازش داده در مقیاس بزرگ است. در این دوره ، شما می آموزید که چگونه با استفاده از Python و یک توزیع پایدار Hadoop ، Cloudera CDH ، برنامه های Spark را برای Big Data خود توسعه دهید. همه را بزرگ کنید
بررسی اجمالی دوره
1m 59s
چرا با پایتون و Cloudera جرقه بزنیم؟
12 متر 47
دریافت محیط و داده: CDH + StackOverflow
42 متر 5 ثانیه
تازه کردن دانش خود: مبانی پایتون برای این دوره
30 متر 22 ثانیه
درک جرقه: یک مرور کلی
27m 47s
گرفتن تکنیک با Spark
46 متر 9 ثانیه
یادگیری هسته Spark: RDD
42m 41s
رفتن عمیق تر به هسته جرقه
46 متر 57
افزایش مهارت با Spark: DataFrames & Spark SQL
38 متر 26 ثانیه
ادامه سفر در DataFrames و Spark SQL
36 متر 0 ثانیه
درک یک API تایپ شده: مجموعه داده ها با Scala کار می کنند ، نه پایتون
5m 51s
آماده سازی نهایی و ادامه سفر با جرقه
11 متر 9 ثانیه
علائم تجاری و نامهای تجاری اشخاص ثالث ذکر شده در این دوره متعلق به صاحبان مربوطه می باشند و Pluralsight وابسته یا تأیید شده توسط این احزاب نیست.
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
-
بررسی اجمالی دوره
Course Overview
چرا با پایتون و Cloudera جرقه بزنیم؟
Why Spark with Python and Cloudera?
-
چرا با پایتون و Cloudera جرقه بزنیم؟
Why Spark with Python and Cloudera?
-
اما چرا Apache Spark؟
But Why Apache Spark?
-
تاریخچه مختصر Spark
Brief History of Spark
-
آنچه در این آموزش پوشش خواهیم داد
What We Will Cover in This Training
-
چیدن زبان پشتیبانی شده از Spark: پایتون ، اسکالا ، جاوا یا R
Picking a Spark Supported Language: Python, Scala, Java, or R
-
برای این دوره به چه چیزی نیاز دارید؟
What Do You Need for This Course?
-
بردن
Takeaway
دریافت محیط و داده: CDH + StackOverflow
Getting an Environment & Data: CDH + StackOverflow
-
دریافت محیط و داده: CDH + StackOverflow
Getting an Environment and Data: CDH + StackOverflow
-
پیش نیازها و مسائل شناخته شده
Prerequisites and Known Issues
-
به روزرسانی Cloudera Manager و CDH
Upgrading Cloudera Manager and CDH
-
نصب یا ارتقا به جاوا 8 (JDK 1.8)
Installing or Upgrading to Java 8 (JDK 1.8)
-
گرفتن جرقه - چندین گزینه وجود دارد: 1.6
Getting Spark - There Are Several Options: 1.6
-
دریافت Spark 2 به صورت مستقل
Getting Spark 2 Standalone
-
نصب Spark 2 در Cloudera
Installing Spark 2 on Cloudera
-
پاداش - IPython با Anaconda: شارژ PySpark شل خود را
Bonus -> IPython with Anaconda: Supercharge Your PySpark Shell
-
داده ها: StackOverflow و StackExchange Dumps + Demo Files
Data: StackOverflow and StackExchange Dumps + Demo Files
-
آماده سازی داده های بزرگ شما
Preparing Your Big Data
-
بردن
Takeaway
تازه کردن دانش خود: مبانی پایتون برای این دوره
Refreshing Your Knowledge: Python Fundamentals for This Course
-
تازه کردن دانش خود: مبانی پایتون برای این دوره
Refreshing Your Knowledge: Python Fundamentals for This Course
-
تاریخ پایتون ، فلسفه و پارادایم
Python's History, Philosophy, and Paradigm
-
Python Shell: REPL
The Python Shell: REPL
-
نحو ، متغیرها ، انواع (پویا) و اپراتورها
Syntax, Variables, (Dynamic) Types, and Operators
-
متغیرهای مرکب: لیست ها ، Tuples و فرهنگ لغت ها
Compound Variables: Lists, Tuples, and Dictionaries
-
بلوک کد ، توابع ، حلقه ها ، ژنراتورها و کنترل جریان
Code Blocks, Functions, Loops, Generators, and Flow Control
-
نقشه ، فیلتر ، گروه بندی و کاهش دهید
Map, Filter, Group, and Reduce
-
PySpark: Spark in the Shell را وارد کنید
Enter PySpark: Spark in the Shell
-
بردن
Takeaway
درک جرقه: یک مرور کلی
Understanding Spark: An Overview
-
درک جرقه: یک مرور کلی
Understanding Spark: An Overview
-
جرقه ، تعداد کلمات ، عملیات و تحولات
Spark, Word Count, Operations, and Transformations
-
چند کلمه در مورد دانه های ریز دانه بندی و مقیاس پذیری
A Few Words on Fine Grained Transformations and Scalability
-
شمارش کلمات در "داده های بزرگ نیست"
Word Count in "Not Big Data"
-
نحوه شمارش کلمات ، دارای دگرگونی های دانه درشت
How Word Count Works, Featuring Coarse Grained Transformations
-
موازی سازی با پارتیشن بندی داده ها
Parallelism by Partitioning Data
-
Pipelining: یکی از اسرار عملکرد Spark
Pipelining: One of the Secrets of Spark's Performance
-
تحولات باریک و گسترده
Narrow and Wide Transformations
-
اعدام تنبل ، تبار ، نمودار حلقوی مستقیم (DAG) و تحمل خطا
Lazy Execution, Lineage, Directed Acyclic Graph (DAG), and Fault Tolerance
-
کتابخانه های جرقه و بسته های جرقه ای
The Spark Libraries and Spark Packages
-
بردن
Takeaway
گرفتن تکنیک با Spark
Getting Technical with Spark
-
دریافت فنی: معماری جرقه ای
Getting Technical: Spark Architecture
-
ذخیره سازی در قالب های Spark و داده های پشتیبانی شده
Storage in Spark and Supported Data Formats
-
بیایید با API ها صحبت کنیم: رابط های برنامه کاربردی Spark سطح پایین و سطح بالا
Let's Talk APIs: Low-level and High-level Spark APIs
-
بهینه سازی عملکرد: تنگستن و کاتالیزور
Performance Optimizations: Tungsten and Catalyst
-
SparkContext و SparkSession: امتیاز ورود به برنامه های Spark
SparkContext and SparkSession: Entry Points to Spark Apps
-
Spark Configuration + Client و Cluster Deployment Modes
Spark Configuration + Client and Cluster Deployment Modes
-
Spark on Yarn: The Cluster Manager
Spark on Yarn: The Cluster Manager
-
با Cloudera Manager و YARN UI جرقه بزنید
Spark with Cloudera Manager and YARN UI
-
تجسم برنامه Spark: وب رابط کاربر و سرور تاریخچه
Visualizing Your Spark App: Web UI and History Server
-
ورود به سیستم Spark و با Cloudera
Logging in Spark and with Cloudera
-
پیمایش در اسناد Spark و Cloudera
Navigating the Spark and Cloudera Documentation
-
بردن
Takeaway
یادگیری هسته Spark: RDD
Learning the Core of Spark: RDDs
-
یادگیری هسته Spark: RDD
Learning the Core of Spark: RDDs
-
SparkContext: نقطه ورود به یک برنامه Spark
SparkContext: The Entry Point to a Spark Application
-
RDD و PairRDD - مجموعه داده های توزیع شده انعطاف پذیر
RDD and PairRDD - Resilient Distributed Datasets
-
ایجاد RDD با Parallelize
Creating RDDs with Parallelize
-
برگرداندن داده ها به درایور ، به عنوان مثال جمع آوری () ، گرفتن () ، اول () ...
Returning Data to the Driver, i.e. collect(), take(), first()...
-
پارتیشن ها ، مجدد پارتیشن ، ادغام ، ذخیره به عنوان متن و HUE
Partitions, Repartition, Coalesce, Saving as Text, and HUE
-
ایجاد RDD از مجموعه داده های خارجی
Creating RDDs from External Datasets
-
ذخیره داده ها به عنوان PickleFile ، NewAPIHadoopFile ، SequenceFile ، ...
Saving Data as PickleFile, NewAPIHadoopFile, SequenceFile, ...
-
ایجاد RDD با تحولات
Creating RDDs with Transformations
-
کمی بیشتر در مورد تبار و وابستگی ها
A Little Bit More on Lineage and Dependencies
-
بردن
Takeaway
رفتن عمیق تر به هسته جرقه
Going Deeper into Spark Core
-
رفتن عمیق تر به هسته جرقه
Going Deeper into Spark Core
-
برنامه نویسی عملکردی: توابع ناشناس (Lambda) در Spark
Functional Programming: Anonymous Functions (Lambda) in Spark
-
نگاهی گذرا به نقشه ، FlatMap ، فیلتر و مرتب سازی
A Quick Look at Map, FlatMap, Filter, and Sort
-
چگونه می توانم تشخیص دهم که یک تحول است
How I Can Tell It Is a Transformation
-
چرا به اقدامات نیاز داریم؟
Why Do We Need Actions?
-
عملیات پارتیشن: MapPartitions و PartitionBy
Partition Operations: MapPartitions and PartitionBy
-
از داده های خود نمونه برداری کنید
Sampling Your Data
-
تنظیم عملیات: عضویت ، اتحادیه ، کاملا راست ، چپ بیرونی و دکارتی
Set Operations: Join, Union, Full Right, Left Outer, and Cartesian
-
ترکیب ، تجمیع ، کاهش و گروه بندی در PairRDDs
Combining, Aggregating, Reducing, and Grouping on PairRDDs
-
ReduceByKey در مقابل GroupByKey: کدام یک بهتر است؟
ReduceByKey vs. GroupByKey: Which One Is Better?
-
گروه بندی داده ها در سطل ها با هیستوگرام
Grouping Data into Buckets with Histogram
-
ذخیره سازی و ماندگاری داده ها
Caching and Data Persistence
-
متغیرهای مشترک: باتری ها و متغیرهای پخش
Shared Variables: Accumulators and Broadcast Variables
-
در حال توسعه برنامه ، بسته ها و پرونده های PySpark مستقل
Developing Self-contained PySpark Application, Packages, and Files
-
معایب RDD - بنابراین چه چیزی بهتر است؟
Disadvantages of RDDs - So What's Better?
-
بردن
Takeaway
افزایش مهارت با Spark: DataFrames & Spark SQL
Increasing Proficiency with Spark: DataFrames & Spark SQL
-
افزایش مهارت با Spark: DataFrames Spark SQL
Increasing Proficiency with Spark: DataFrames & Spark SQL
-
"همه" از SQL و نحوه شروع آن استفاده می کنند
"Everyone" Uses SQL and How It All Began
-
سلام DataFrames و Spark SQL
Hello DataFrames and Spark SQL
-
SparkSession: نقطه ورود به Spark SQL و DataFrame API
SparkSession: The Entry Point to the Spark SQL and DataFrame API
-
ایجاد DataFrames
Creating DataFrames
-
DataFrames به RDD و Viceversa
DataFrames to RDDs and Viceversa
-
بارگذاری فریم های داده: متن و CSV
Loading DataFrames: Text and CSV
-
طرحواره ها: استنباط شده و به صورت برنامه ای + گزینه
Schemas: Inferred and Programatically Specified + Option
-
بارگیری اطلاعات بیشتر: پارکت و JSON
More Data Loading: Parquet and JSON
-
ردیف ها ، ستون ها ، عبارات و اپراتورها
Rows, Columns, Expressions, and Operators
-
کار با ستون ها
Working with Columns
-
بیشتر ستون ها ، عبارات ، شبیه سازی ، تغییر نام ، ریخته گری ، رها کردن
More Columns, Expressions, Cloning, Renaming, Casting, & Dropping
-
توابع تعریف شده توسط کاربر (UDF) در Spark SQL
User Defined Functions (UDFs) on Spark SQL
-
بردن
Takeaway
ادامه سفر در DataFrames و Spark SQL
Continuing the Journey on DataFrames and Spark SQL
-
پرس و جو ، مرتب سازی و فیلتر کردن قاب داده ها: DSL
Querying, Sorting, and Filtering DataFrames: The DSL
-
با داده های از دست رفته یا خراب چه کاری باید انجام داد
What to Do with Missing or Corrupt Data
-
ذخیره DataFrames
Saving DataFrames
-
Spark SQL: پرس و جو با استفاده از نماهای موقتی
Spark SQL: Querying Using Temporary Views
-
بارگذاری پرونده ها و نمایش ها در DataFrames با استفاده از Spark SQL
Loading Files and Views into DataFrames Using Spark SQL
-
ذخیره در جداول پایدار + شماره شناخته شده Spark 2
Saving to Persistent Tables + Spark 2 Known Issue
-
پشتیبانی کندو و پایگاه داده های خارجی
Hive Support and External Databases
-
جمع کردن ، گروه بندی و پیوستن
Aggregating, Grouping, and Joining
-
API کاتالوگ
The Catalog API
-
بردن
Takeaway
درک یک API تایپ شده: مجموعه داده ها با Scala کار می کنند ، نه پایتون
Understanding a Typed API: Datasets Works with Scala, Not Python
-
درک یک API تایپ شده: مجموعه داده ها؛ با Scala ، نه Python کار می کند
Understanding a Typed API: Datasets; Works with Scala, Not Python
-
اسکالا رو گرفتی؟
Got Scala?
-
نگاهی گذرا به مجموعه داده ها
A Quick Look at Datasets
-
بردن
Takeaway
آماده سازی نهایی و ادامه سفر با جرقه
Final Takeaway and Continuing the Journey with Spark
-
غذای آماده نهایی
Final Takeaway
-
ادامه سفر با جرقه
Continuing the Journey with Spark
نمایش نظرات