آموزش معماری راه حل های Big Data با استفاده از Google Dataproc

Architecting Big Data Solutions Using Google Dataproc

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره: Dataproc پیشنهاد Hadoop تحت مدیریت Google در فضای ابری است. این دوره به شما می آموزد که چگونه جداسازی فضای ذخیره سازی و محاسبه به شما امکان می دهد از خوشه ها صرفاً برای پردازش داده ها و نه برای ذخیره سازی استفاده کنید. هنگامی که سازمان ها قصد انتقال خود به Google Cloud Platform را دارند ، Dataproc همان ویژگی ها را ارائه می دهد اما با الگوی های قدرتمند اضافی مانند جداسازی محاسبه و ذخیره سازی. Dataproc به شما این امکان را می دهد که کارهای پردازش Hadoop خود را بر روی cloud بلند کرده و تغییر دهید و داده های خود را جداگانه در سطل های Cloud Storage ذخیره کنید ، بنابراین به طور موثر نیاز به همیشه خوشه های خود را از بین می برید. در این دوره ، با استفاده از Architecting Big Data Solutions با استفاده از Google Dataproc ، یاد خواهید گرفت که با Hadoop مدیریت شده در Google Cloud کار کنید و بهترین روشهایی را که برای انتقال مشاغل پیش فرض خود به خوشه های Dataproc دنبال می کنید ، دنبال کنید. ابتدا باید ایجاد یک خوشه Dataproc و پیکربندی قوانین فایروال کنید تا بتوانید از طریق دستگاه محلی خود به UI مدیر خوشه دسترسی پیدا کنید. در مرحله بعدی ، خواهید فهمید که چگونه از موتور تجزیه و تحلیل توزیع شده Spark در خوشه Dataproc خود استفاده کنید. سپس ، نحوه ادغام کد را برای ادغام مشاغل Spark خود با سطل BigQuery و Cloud Storage با استفاده از اتصالات ، کشف خواهید کرد. سرانجام ، شما خواهید آموخت که چگونه از خوشه Dataproc خود برای انجام عملیات استخراج ، تبدیل و بارگذاری با استفاده از Pig به عنوان یک زبان برنامه نویسی و کار با جداول Hive استفاده کنید. در پایان این دوره ، شما دانش لازم را برای کار با پیشنهاد Hadoop مدیریت شده توسط Google خواهید داشت و ایده خوبی در مورد نحوه مهاجرت مشاغل و داده های موجود در خوشه Hadoop موجود خود به Google Cloud خواهید داشت.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

معرفی Google Dataproc برای Big Data on the Cloud Introducing Google Dataproc for Big Data on the Cloud

  • بررسی اجمالی ماژول Module Overview

  • پیش نیازها ، طرح کلی دوره و سناریوهای فروش Spikey Prerequisites, Course Outline, and Spikey Sales Scenarios

  • پردازش توزیع شده Distributed Processing

  • ذخیره سازی در Hadoop سنتی Storage in Traditional Hadoop

  • در Hadoop سنتی محاسبه کنید Compute in Traditional Hadoop

  • جدا کردن فضای ذخیره سازی و محاسبه با Dataproc Separating Storage and Compute with Dataproc

  • هادوپ در مقابل داتاپروک Hadoop vs. Dataproc

  • با استفاده از Cloud Shell ، فعال کردن Dataproc API Using the Cloud Shell, Enabling the Dataproc API

  • ویژگی های Dataproc Dataproc Features

  • مهاجرت به دیتاپروک Migrating to Dataproc

  • Dataproc قیمت گذاری Dataproc Pricing

اجرای Hadoop Map شغل را در Google Dataproc کاهش دهید Running Hadoop MapReduce Jobs on Google Dataproc

  • بررسی اجمالی ماژول Module Overview

  • ایجاد یک خوشه Dataproc با استفاده از کنسول وب Creating a Dataproc Cluster Using the Web Console

  • با استفاده از SSH برای اتصال به Master Node Using SSH to Connect to the Master Node

  • ایجاد یک قانون فایروال برای فعال کردن دسترسی به Dataproc Creating a Firewall Rule to Enable Access to Dataproc

  • دسترسی به مدیر منابع و UI نام گره Accessing the Resource Manager and Name Node UI

  • داده و کد MapReduce را در Cloud Storage بارگذاری کنید Upload Data and MapReduce Code to Cloud Storage

  • اجرای MapReduce در Dataproc Running MapReduce on Dataproc

  • اجرای MapReduce با استفاده از ابزار خط فرمان gcloud Running MapReduce Using the gcloud Command Line Utility

  • ایجاد یک خوشه با نمونه های ترجیحی با استفاده از gcloud Creating a Cluster with Preemptible Instances Using gcloud

  • نظارت بر خوشه ها با استفاده از Stackdriver Monitoring Clusters Using Stackdriver

  • Stackdriver Monitoring Groups و خطوط هشدار Stackdriver Monitoring Groups and Alerting Policies

  • پیکربندی اقدامات اولیه برای Dataproc Configuring Initialization Actions for Dataproc

کار با Apache Spark در Google Dataproc Working with Apache Spark on Google Dataproc

  • بررسی اجمالی ماژول Module Overview

  • جرقه برای پردازش توزیع شده Spark for Distributed Processing

  • اجرای Spark Scala Job با استفاده از کنسول وب Running a Spark Scala Job Using the Web Console

  • اجرای برنامه Spark با استفاده از gcloud Executing a Spark Application Using gcloud

  • ایجاد یک جدول BigQuery Creating a BigQuery Table

  • برنامه Pyspark با استفاده از BiqQuery و اتصالات ذخیره سازی ابر Pyspark Application Using BiqQuery and Cloud Storage Connectors

  • اجرای یک برنامه Spark برای گرفتن نتیجه در BigQuery Executing a Spark Application to Get Results in BigQuery

  • نظارت بر مشاغل جرقه در Dataproc Monitoring Spark Jobs on Dataproc

کار با Pig and Hive در Google Dataproc Working with Pig and Hive on Google Dataproc

  • بررسی اجمالی ماژول Module Overview

  • خوک برای استخراج بار تبدیل Pig for Extract Transform Load

  • اجرای اسکریپت های خوک در Dataproc Running Pig Scripts on Dataproc

  • ذخیره خروجی خوک در فضای ذخیره سازی ابری Storing Pig Output to Cloud Storage

  • جستجوی داده های بزرگ Hive to Query Big Data

  • اجرای نمایش داده های کندو در Dataproc Executing Hive Queries on Dataproc

  • خلاصه و مطالعه بیشتر Summary and Further Study

نمایش نظرات

آموزش معماری راه حل های Big Data با استفاده از Google Dataproc
جزییات دوره
2h 17m
39
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
14
4.9 از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.