نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره:
Dataproc پیشنهاد Hadoop تحت مدیریت Google در فضای ابری است. این دوره به شما می آموزد که چگونه جداسازی فضای ذخیره سازی و محاسبه به شما امکان می دهد از خوشه ها صرفاً برای پردازش داده ها و نه برای ذخیره سازی استفاده کنید. هنگامی که سازمان ها قصد انتقال خود به Google Cloud Platform را دارند ، Dataproc همان ویژگی ها را ارائه می دهد اما با الگوی های قدرتمند اضافی مانند جداسازی محاسبه و ذخیره سازی. Dataproc به شما این امکان را می دهد که کارهای پردازش Hadoop خود را بر روی cloud بلند کرده و تغییر دهید و داده های خود را جداگانه در سطل های Cloud Storage ذخیره کنید ، بنابراین به طور موثر نیاز به همیشه خوشه های خود را از بین می برید. در این دوره ، با استفاده از Architecting Big Data Solutions با استفاده از Google Dataproc ، یاد خواهید گرفت که با Hadoop مدیریت شده در Google Cloud کار کنید و بهترین روشهایی را که برای انتقال مشاغل پیش فرض خود به خوشه های Dataproc دنبال می کنید ، دنبال کنید. ابتدا باید ایجاد یک خوشه Dataproc و پیکربندی قوانین فایروال کنید تا بتوانید از طریق دستگاه محلی خود به UI مدیر خوشه دسترسی پیدا کنید. در مرحله بعدی ، خواهید فهمید که چگونه از موتور تجزیه و تحلیل توزیع شده Spark در خوشه Dataproc خود استفاده کنید. سپس ، نحوه ادغام کد را برای ادغام مشاغل Spark خود با سطل BigQuery و Cloud Storage با استفاده از اتصالات ، کشف خواهید کرد. سرانجام ، شما خواهید آموخت که چگونه از خوشه Dataproc خود برای انجام عملیات استخراج ، تبدیل و بارگذاری با استفاده از Pig به عنوان یک زبان برنامه نویسی و کار با جداول Hive استفاده کنید. در پایان این دوره ، شما دانش لازم را برای کار با پیشنهاد Hadoop مدیریت شده توسط Google خواهید داشت و ایده خوبی در مورد نحوه مهاجرت مشاغل و داده های موجود در خوشه Hadoop موجود خود به Google Cloud خواهید داشت.
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
-
بررسی اجمالی دوره
Course Overview
معرفی Google Dataproc برای Big Data on the Cloud
Introducing Google Dataproc for Big Data on the Cloud
-
بررسی اجمالی ماژول
Module Overview
-
پیش نیازها ، طرح کلی دوره و سناریوهای فروش Spikey
Prerequisites, Course Outline, and Spikey Sales Scenarios
-
پردازش توزیع شده
Distributed Processing
-
ذخیره سازی در Hadoop سنتی
Storage in Traditional Hadoop
-
در Hadoop سنتی محاسبه کنید
Compute in Traditional Hadoop
-
جدا کردن فضای ذخیره سازی و محاسبه با Dataproc
Separating Storage and Compute with Dataproc
-
هادوپ در مقابل داتاپروک
Hadoop vs. Dataproc
-
با استفاده از Cloud Shell ، فعال کردن Dataproc API
Using the Cloud Shell, Enabling the Dataproc API
-
ویژگی های Dataproc
Dataproc Features
-
مهاجرت به دیتاپروک
Migrating to Dataproc
-
Dataproc قیمت گذاری
Dataproc Pricing
اجرای Hadoop Map شغل را در Google Dataproc کاهش دهید
Running Hadoop MapReduce Jobs on Google Dataproc
-
بررسی اجمالی ماژول
Module Overview
-
ایجاد یک خوشه Dataproc با استفاده از کنسول وب
Creating a Dataproc Cluster Using the Web Console
-
با استفاده از SSH برای اتصال به Master Node
Using SSH to Connect to the Master Node
-
ایجاد یک قانون فایروال برای فعال کردن دسترسی به Dataproc
Creating a Firewall Rule to Enable Access to Dataproc
-
دسترسی به مدیر منابع و UI نام گره
Accessing the Resource Manager and Name Node UI
-
داده و کد MapReduce را در Cloud Storage بارگذاری کنید
Upload Data and MapReduce Code to Cloud Storage
-
اجرای MapReduce در Dataproc
Running MapReduce on Dataproc
-
اجرای MapReduce با استفاده از ابزار خط فرمان gcloud
Running MapReduce Using the gcloud Command Line Utility
-
ایجاد یک خوشه با نمونه های ترجیحی با استفاده از gcloud
Creating a Cluster with Preemptible Instances Using gcloud
-
نظارت بر خوشه ها با استفاده از Stackdriver
Monitoring Clusters Using Stackdriver
-
Stackdriver Monitoring Groups و خطوط هشدار
Stackdriver Monitoring Groups and Alerting Policies
-
پیکربندی اقدامات اولیه برای Dataproc
Configuring Initialization Actions for Dataproc
کار با Apache Spark در Google Dataproc
Working with Apache Spark on Google Dataproc
-
بررسی اجمالی ماژول
Module Overview
-
جرقه برای پردازش توزیع شده
Spark for Distributed Processing
-
اجرای Spark Scala Job با استفاده از کنسول وب
Running a Spark Scala Job Using the Web Console
-
اجرای برنامه Spark با استفاده از gcloud
Executing a Spark Application Using gcloud
-
ایجاد یک جدول BigQuery
Creating a BigQuery Table
-
برنامه Pyspark با استفاده از BiqQuery و اتصالات ذخیره سازی ابر
Pyspark Application Using BiqQuery and Cloud Storage Connectors
-
اجرای یک برنامه Spark برای گرفتن نتیجه در BigQuery
Executing a Spark Application to Get Results in BigQuery
-
نظارت بر مشاغل جرقه در Dataproc
Monitoring Spark Jobs on Dataproc
کار با Pig and Hive در Google Dataproc
Working with Pig and Hive on Google Dataproc
-
بررسی اجمالی ماژول
Module Overview
-
خوک برای استخراج بار تبدیل
Pig for Extract Transform Load
-
اجرای اسکریپت های خوک در Dataproc
Running Pig Scripts on Dataproc
-
ذخیره خروجی خوک در فضای ذخیره سازی ابری
Storing Pig Output to Cloud Storage
-
جستجوی داده های بزرگ
Hive to Query Big Data
-
اجرای نمایش داده های کندو در Dataproc
Executing Hive Queries on Dataproc
-
خلاصه و مطالعه بیشتر
Summary and Further Study
نمایش نظرات