آموزش Cloud Hadoop: Scaling Apache Spark

Cloud Hadoop: Scaling Apache Spark

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: Apache Hadoop و Spark امکان ایجاد بینش تجاری واقعی از داده های بزرگ را فراهم می کنند. ابر آمازون خانه طبیعی این مجموعه ابزار قدرتمند است و خدمات متنوعی را برای اجرای گردش کار پردازش داده در مقیاس بزرگ فراهم می کند. بیاموزید که در این دوره با معمار داده های بزرگ ، لین لانگیت ، گردش کار Apache Hadoop و Spark خود را در AWS پیاده کنید. با استفاده از ماشین های مجازی با EC2 ، خوشه های Spark مدیریت شده با EMR یا کانتینرهای با EKS ، گزینه های استقرار برای مشاغل مقیاس تولید را کاوش کنید با نحوه پیکربندی و مدیریت خوشه های Hadoop و مشاغل Spark با Databricks آشنا شوید و از Python یا زبان برنامه نویسی مورد نظر خود برای وارد کردن داده ها و اجرای مشاغل استفاده کنید. بعلاوه ، یاد بگیرید که چگونه از کتابخانه های Spark برای یادگیری ماشین ، ژنومیک و پخش جریانی استفاده کنید. هر درس به شما کمک می کند بفهمید کدام گزینه استقرار برای حجم کار شما بهترین است.
موضوعات شامل:
  • سیستم سیستم برای Hadoop و Spark
  • کار با پایگاه داده
  • بارگذاری داده ها در جداول
  • تنظیم خوشه های Hadoop و Spark روی ابر
  • در حال انجام مشاغل جرقه
  • واردات و صادرات نوت بوک های پایتون
  • اجرای مشاغل Spark در Databricks با استفاده از Python و Scala
  • وارد کردن داده ها به خوشه های Spark
  • کدگذاری و اجرای تحولات و اقدامات Spark
  • ذخیره داده
  • کتابخانه های Spark: Spark SQL ، SparkR ، Spark ML و موارد دیگر
  • جرقه زدن
  • جرقه مقیاس بندی با AWS و GCP

سرفصل ها و درس ها

مقدمه Introduction

  • پوسته پوسته شدن Apache Hadoop و Spark Scaling Apache Hadoop and Spark

  • آنچه باید بدانید What you should know

  • استفاده از خدمات ابری Using cloud services

1. اصول Hadoop و Spark 1. Hadoop and Spark Fundamentals

  • Hadoop مدرن و جرقه Modern Hadoop and Spark

  • سیستم های فایل مورد استفاده با Hadoop و Spark File systems used with Hadoop and Spark

  • دزدگیرهای Apache یا Hadoop تجاری Apache or commercial Hadoop distros

  • کتابخانه های Hadoop و Spark Hadoop and Spark libraries

  • Hadoop در Google Cloud Platform Hadoop on Google Cloud Platform

  • جرقه اشتغال در Google Cloud Platform Spark Job on Google Cloud Platform

2. محیط Spark AWS 2. AWS Cloud Spark Environments

  • برای عضویت در Databricks Community Edition ثبت نام کنید Sign up for Databricks Community Edition

  • کتابخانه های Hadoop را اضافه کنید Add Hadoop libraries

  • Databricks AWS Edition Community Databricks AWS Community Edition

  • داده ها را در جداول بارگذاری کنید Load data into tables

  • خوشه Hadoop و Spark در AWS EMR Hadoop and Spark cluster on AWS EMR

  • کار Spark را در AWS EMR انجام دهید Run Spark job on AWS EMR

  • معماری دسته ای را برای ETL در AWS مرور کنید Review batch architecture for ETL on AWS

3. مبانی جرقه 3. Spark Basics

  • کتابخانه Apache Spark Apache Spark libraries

  • واسط داده های جرقه Spark data interfaces

  • زبان برنامه نویسی خود را انتخاب کنید Select your programming language

  • اجسام جلسه جرقه Spark session objects

  • جرقه Spark shell

4- استفاده از جرقه 4. Using Spark

  • در محیط Databricks گشت و گذار کنید Tour the Databricks Environment

  • تور نوت بوک Tour the notebook

  • نوت بوک های وارداتی و صادراتی Import and export notebooks

  • پی را بر روی جرقه محاسبه کنید Calculate Pi on Spark

  • WordCount of Spark را با Scala اجرا کنید Run WordCount of Spark with Scala

  • وارد کردن داده Import data

  • تحولات و اقدامات Transformations and actions

  • حافظه پنهان و DAG Caching and the DAG

  • معماری: جریان برای پیش بینی Architecture: Streaming for prediction

5. کتابخانه های جرقه 5. Spark Libraries

  • جرقه SQL Spark SQL

  • SparkR SparkR

  • Spark ML: تهیه داده ها Spark ML: Preparing data

  • Spark ML: ساختن مدل Spark ML: Building the model

  • Spark ML: ارزیابی مدل Spark ML: Evaluating the model

  • یادگیری ماشین پیشرفته در Spark Advanced machine learning on Spark

  • MXNet MXNet

  • جرقه با ADAM برای ژنومیک Spark with ADAM for genomics

  • معماری جرقه برای ژنومیک Spark architecture for genomics

6. جریان جرقه 6. Spark Streaming

  • خطوط لوله جریان مجدد را بررسی کنید Reexamine streaming pipelines

  • جرقه جریان Spark Streaming

  • جریان دادن به خدمات Streaming ingest services

  • جرقه پیشرفته جرقه با MLeap Advanced Spark Streaming with MLeap

7. مقیاس گذاری جرقه در AWS و GCP 7. Scaling Spark on AWS and GCP

  • به عنوان مثال جرقه را روی ابر قرار دهید Scale Spark on the cloud by example

  • شروع سریع با Databricks AWS ایجاد کنید Build a quick start with Databricks AWS

  • مقیاس ابر Spark با VMs محاسبه می کند Scale Spark cloud compute with VMs

  • بهینه سازی دستگاه های مجازی ابری Spark Optimize cloud Spark virtual machines

  • از ظروف AWS EKS و دریاچه داده استفاده کنید Use AWS EKS containers and data lake

  • لایه های داده ابر Spark را در Kubernetes بهینه کنید Optimize Spark cloud data tiers on Kubernetes

  • زیرساخت های ابر قابل تولید را ایجاد کنید Build reproducible cloud infrastructure

  • مقیاس در GCP Dataproc یا Terra.bio Scale on GCP Dataproc or on Terra.bio

نتیجه Conclusion

  • برای مقیاس گذاری یادگیری را ادامه دهید Continue learning for scaling

نمایش نظرات

آموزش Cloud Hadoop: Scaling Apache Spark
جزییات دوره
3h 13m
52
Linkedin (لینکدین) Linkedin (لینکدین)
(آخرین آپدیت)
1,367
- از 5
ندارد
دارد
دارد
Lynn Langit
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Lynn Langit Lynn Langit

Cloud Architect

Lynn Langit یک معمار ابری است که با خدمات وب آمازون و Google Cloud Platform کار می کند.

لین متخصص در پروژه های کلان داده است. او با AWS Athena، Aurora، Redshift، Kinesis و IoT کار کرده است. او همچنین کارهای تولیدی را با Databricks برای Apache Spark و Google Cloud Dataproc، Bigtable، BigQuery و Cloud Spanner انجام داده است.

لین همچنین بنیانگذار  است. آموزش برنامه نویسی به کودکان. او درباره داده ها و فناوری های ابری در آمریکای شمالی و جنوبی، اروپا، آفریقا، آسیا و استرالیا صحبت کرده است.