نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره:
Apache Spark یکی از سریعترین و کارآمدترین موتورهای عمومی برای پردازش داده در مقیاس بزرگ است. در این دوره ، شما می آموزید که چگونه با استفاده از Scala و یک توزیع پایدار Hadoop ، Cloudera CDH ، برنامه های Spark را برای Big Data خود توسعه دهید. در هسته اصلی کار با مجموعه داده های مقیاس بزرگ ، دانش کاملی از سیستم عامل های Big Data مانند Apache Spark و هادوپ در این دوره ، در حال توسعه برنامه های Spark با استفاده از Scala & Cloudera ، شما خواهید آموخت که چگونه داده ها را در مقیاسی که قبلاً فکر می کنید از دسترس شما نیست ، پردازش کنید. ابتدا تمام جزئیات فنی نحوه کار Spark را یاد خواهید گرفت. در مرحله بعدی ، RDD API ، انتزاع اصلی هسته Spark را کشف خواهید کرد. سپس ، خواهید فهمید که چگونه با استفاده از Spark SQL و DataFrames مهارت بیشتری کسب کنید. سرانجام ، شما یاد خواهید گرفت که با API تایپ شده Spark: Datasets کار کنید. هنگامی که با این دوره به پایان رسیدید ، دانش بنیادی Apache Spark با Scala و Cloudera را خواهید داشت که به شما کمک می کند هنگام حرکت به سمت جلو برای توسعه برنامه های داده در مقیاس بزرگ که به شما امکان می دهد با Big Data به طور کارآمد و کارآمد کار کنید ، حرکت کنید. راه اجرا
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
-
بررسی اجمالی دوره
Course Overview
چرا با Scala و Cloudera جرقه می زنیم؟
Why Spark with Scala and Cloudera?
-
چرا با Scala و Cloudera جرقه می زنیم؟
Why Spark with Scala and Cloudera?
-
اما چرا Apache Spark؟
But Why Apache Spark?
-
تاریخچه مختصر Spark
Brief History of Spark
-
آنچه در این آموزش پوشش خواهیم داد
What We Will Cover in This Training
-
چیدن زبان پشتیبانی شده از Spark: Scala ، Python ، Java یا R
Picking a Spark Supported Language: Scala, Python, Java, or R
-
برای این دوره به چه چیزی نیاز دارید؟
What Do You Need for This Course?
-
بردن
Takeaway
دریافت محیط و داده: CDH + StackOverflow
Getting an Environment and Data: CDH + StackOverflow
-
دریافت داده های محیطی: CDH + StackOverflow
Getting an Environment & Data: CDH + StackOverflow
-
پیش نیازها مسائل شناخته شده
Prerequisites & Known Issues
-
به روزرسانی Cloudera Manager و CDH
Upgrading Cloudera Manager and CDH
-
نصب یا ارتقا به جاوا 8 (JDK 1.8)
Installing or Upgrading to Java 8 (JDK 1.8)
-
جرقه زدن - چندین گزینه وجود دارد: 1.6
Getting Spark - There Are Several Options: 1.6
-
دریافت Spark 2 به صورت مستقل
Getting Spark 2 Standalone
-
نصب Spark 2 در Cloudera
Installing Spark 2 on Cloudera
-
داده ها: StackOverflow StackExchange Dumps + Demo Files
Data: StackOverflow & StackExchange Dumps + Demo Files
-
آماده سازی داده های بزرگ شما
Preparing Your Big Data
-
بردن
Takeaway
تازه کردن دانش خود: مبانی Scala برای این دوره
Refreshing Your Knowledge: Scala Fundamentals for This Course
-
تازه کردن دانش خود: مبانی Scala برای این دوره
Refreshing Your Knowledge: Scala Fundamentals for This Course
-
تاریخچه و بررسی اجمالی Scala
Scala's History and Overview
-
ساخت و اجرای برنامه های Scala
Building and Running Scala Applications
-
ایجاد برنامه های خودمختار ، از جمله scalac sbt
Creating Self-contained Applications, Including scalac & sbt
-
Scala Shell: REPL (ارزیابی ارزیابی حلقه چاپ)
The Scala Shell: REPL (Read Evaluate Print Loop)
-
مقیاس ، زبان
Scala, the Language
-
اطلاعات بیشتر در مورد انواع ، توابع و عملکردها
More on Types, Functions, and Operations
-
عبارات ، توابع و روش ها
Expressions, Functions, and Methods
-
کلاسها ، کلاسهای موردی و صفات
Classes, Case Classes, and Traits
-
کنترل جریان
Flow Control
-
برنامه نویسی عملکردی
Functional Programming
-
spark2-shell را وارد کنید: جرقه در پوسته Scala
Enter spark2-shell: Spark in the Scala Shell
-
بردن
Takeaway
درک جرقه: یک مرور کلی
Understanding Spark: An Overview
-
درک جرقه: یک مرور کلی
Understanding Spark: An Overview
-
جرقه ، تعداد کلمات ، عملیات و تحولات
Spark, Word Count, Operations, and Transformations
-
چند کلمه در مورد دانه های ریز دانه بندی و مقیاس پذیری
A Few Words on Fine Grained Transformations and Scalability
-
شمارش کلمات در "داده های بزرگ نیست"
Word Count in "Not Big Data"
-
نحوه شمارش کلمات ، دارای دگرگونی های درشت دانه
How Word Count Works, Featuring Coarse Grained Transformations
-
موازی سازی با پارتیشن بندی داده ها
Parallelism by Partitioning Data
-
Pipelining: یکی از اسرار عملکرد Spark
Pipelining: One of the Secrets of Spark's Performance
-
تحولات باریک و گسترده
Narrow and Wide Transformations
-
اعدام تنبل ، تبار ، نمودار حلقوی مستقیم (DAG) و تحمل خطا
Lazy Execution, Lineage, Directed Acyclic Graph (DAG), and Fault Tolerance
-
زمان برای تصویر بزرگ: کتابخانه های جرقه ای
Time for the Big Picture: Spark Libraries
-
بردن
Takeaway
گرفتن تکنیک با Spark
Getting Technical with Spark
-
دریافت فنی: معماری جرقه ای
Getting Technical: Spark Architecture
-
ذخیره سازی در قالب های Spark و داده های پشتیبانی شده
Storage in Spark and Supported Data Formats
-
بیایید با API صحبت کنیم: سطح پایین و سطح بالا API جرقه
Let's Talk APIs: Low Level and High Level Spark APIs
-
بهینه سازی عملکرد: تنگستن و کاتالیزور
Performance Optimizations: Tungsten and Catalyst
-
SparkContext و SparkSession: امتیاز ورود به برنامه های Spark
SparkContext and SparkSession: Entry Points to Spark Apps
-
Spark Configuration + Client و Cluster Deployment Modes
Spark Configuration + Client and Cluster Deployment Modes
-
Spark on Yarn: The Cluster Manager
Spark on Yarn: The Cluster Manager
-
با Cloudera Manager و YARN UI جرقه بزنید
Spark with Cloudera Manager and YARN UI
-
تجسم برنامه Spark: وب رابط کاربر و سرور تاریخچه
Visualizing Your Spark App: Web UI and History Server
-
ورود به سیستم با Spark و Cloudera
Logging in with Spark and Cloudera
-
پیمایش در اسناد Spark و Cloudera
Navigating the Spark and Cloudera Documentation
-
بردن
Takeaway
یادگیری هسته Spark: RDD
Learning the Core of Spark: RDDs
-
یادگیری هسته Spark: RDD
Learning the Core of Spark: RDDs
-
SparkContext: نقطه ورود به یک برنامه Spark
SparkContext: The Entry Point to a Spark Application
-
RDD و PairRDD - مجموعه داده های توزیع شده انعطاف پذیر
RDD and PairRDD - Resilient Distributed Datasets
-
ایجاد RDD با Parallelize
Creating RDDs with Parallelize
-
بازگشت داده ها به درایور ، به عنوان مثال جمع آوری () ، گرفتن () ، اول () ...
Returning Data to the Driver, i.e. collect(), take(), first()...
-
پارتیشن ها ، مجدد پارتیشن ، ادغام ، ذخیره به عنوان متن و HUE
Partitions, Repartition, Coalesce, Saving as Text, and HUE
-
ایجاد RDD از مجموعه داده های خارجی
Creating RDDs from External Datasets
-
ذخیره داده ها به عنوان ObjectFile ، NewAPIHadoopFile ، SequenceFile ، ...
Saving Data as ObjectFile, NewAPIHadoopFile, SequenceFile, ...
-
ایجاد RDD با تحولات
Creating RDDs with Transformations
-
کمی بیشتر در مورد تبار و وابستگی ها
A Little Bit More on Lineage and Dependencies
-
بردن
Takeaway
رفتن عمیق تر به هسته جرقه
Going Deeper into Spark Core
-
رفتن عمیق تر به هسته جرقه
Going Deeper into Spark Core
-
برنامه نویسی عملکردی: توابع ناشناس (Lambda) در Spark
Functional Programming: Anonymous Functions (Lambda) in Spark
-
نگاهی گذرا به نقشه ، FlatMap ، فیلتر و مرتب سازی
A Quick Look at Map, FlatMap, Filter, and Sort
-
چگونه می توانم تشخیص دهم که یک تحول است
How Can I Tell It Is a Transformation
-
چرا به اقدامات نیاز داریم؟
Why Do We Need Actions?
-
عملیات پارتیشن: MapPartitions و PartitionBy
Partition Operations: MapPartitions and PartitionBy
-
از داده های خود نمونه برداری کنید
Sampling Your Data
-
تنظیم عملیات: عضویت ، اتحادیه ، کاملا راست ، چپ بیرونی و دکارتی
Set Operations: Join, Union, Full Right, Left Outer, and Cartesian
-
ترکیب ، تجمیع ، کاهش و گروه بندی در PairRDDs
Combining, Aggregating, Reducing, and Grouping on PairRDDs
-
ReduceByKey در مقابل GroupByKey: کدام یک بهتر است؟
ReduceByKey vs. GroupByKey: Which One Is Better?
-
گروه بندی داده ها در سطل ها با هیستوگرام
Grouping Data into Buckets with Histogram
-
ذخیره سازی و ماندگاری داده ها
Caching and Data Persistence
-
متغیرهای مشترک: جمع کننده ها و پخش
Shared Variables: Accumulators and Broadcast
-
آنچه برای توسعه برنامه های Spark مستقل مورد نیاز است
What's Needed for Developing Self-contained Spark Applications
-
معایب RDD - بنابراین چه چیزی بهتر است؟
Disadvantages of RDDs - So What's Better?
-
بردن
Takeaway
افزایش مهارت با Spark: DataFrames و Spark SQL
Increasing Proficiency with Spark: DataFrames and Spark SQL
-
افزایش مهارت با Spark: DataFrames Spark SQL
Increasing Proficiency with Spark: DataFrames & Spark SQL
-
"همه" از SQL و نحوه شروع آن استفاده می کنند
"Everyone" Uses SQL and How It All Began
-
سلام DataFrames و Spark SQL
Hello DataFrames and Spark SQL
-
SparkSession: نقطه ورود به Spark SQL/DataFrame API
SparkSession: The Entry Point to the Spark SQL / DataFrame API
-
ایجاد DataFrames
Creating DataFrames
-
فریم داده ها به RDD و بالعکس
DataFrames to RDDs and Vice Versa
-
بارگذاری فریم های داده: متن و CSV
Loading DataFrames: Text and CSV
-
طرحواره ها: استنباط شده و به صورت برنامه ای + گزینه
Schemas: Inferred and Programatically Specified + Option
-
بارگیری اطلاعات بیشتر: پارکت و JSON
More Data Loading: Parquet and JSON
-
ردیف ها ، ستون ها ، عبارات و اپراتورها
Rows, Columns, Expressions, and Operators
-
کار با ستون ها
Working with Columns
-
بیشتر ستون ها ، عبارات ، شبیه سازی ، تغییر نام ، ریخته گری ، رها کردن
More Columns, Expressions, Cloning, Renaming, Casting, & Dropping
-
توابع تعریف شده توسط کاربر (UDF) در Spark SQL
User Defined Functions (UDFs) on Spark SQL
-
بردن
Takeaway
ادامه سفر در DataFrames و Spark SQL
Continuing the Journey on DataFrames and Spark SQL
-
پرس و جو ، مرتب سازی و فیلتر کردن قاب داده ها: DSL
Querying, Sorting, and Filtering DataFrames: The DSL
-
با داده های از دست رفته یا خراب چه کاری باید انجام داد
What to Do with Missing or Corrupt Data
-
ذخیره DataFrames
Saving DataFrames
-
Spark SQL: پرس و جو با استفاده از نماهای موقتی
Spark SQL: Querying Using Temporary Views
-
بارگذاری پرونده ها و نمایش ها در DataFrames با استفاده از Spark SQL
Loading Files and Views into DataFrames Using Spark SQL
-
ذخیره در جداول پایدار + شماره شناخته شده Spark 2
Saving to Persistent Tables + Spark 2 Known Issue
-
پشتیبانی کندو و پایگاه داده های خارجی
Hive Support and External Databases
-
جمع کردن ، گروه بندی و پیوستن
Aggregating, Grouping, and Joining
-
API کاتالوگ
The Catalog API
-
بردن
Takeaway
کار با API تایپ شده: مجموعه داده ها
Working with a Typed API: Datasets
-
درک یک API تایپ شده: مجموعه داده ها
Understanding a Typed API: Datasets
-
انگیزه پشت مجموعه داده ها
The Motivation Behind Datasets
-
مجموعه داده چیست؟
What's a Dataset?
-
برای مجموعه های داده چه چیزی نیاز دارید؟
What Do You Need for Datasets?
-
ایجاد مجموعه های داده
Creating Datasets
-
عملیات Dataset
Dataset Operations
-
RDD در مقابل DataFrames در مقابل مجموعه داده: چند افکار نهایی
RDDs vs. DataFrames vs. Datasets: A Few Final Thoughts
-
بردن
Takeaway
آماده سازی نهایی و ادامه سفر با جرقه
Final Takeaway and Continuing the Journey with Spark
-
غذای آماده نهایی
Final Takeaway
-
ادامه سفر با Spark ، Scala و Cloudera
Continuing the Journey with Spark, Scala, and Cloudera
نمایش نظرات