آموزش کارشناسی ارشد مهندسی داده با استفاده از تجزیه و تحلیل داده های GCP

Master Data Engineering using GCP Data Analytics

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: آموزش GCS برای Data Lake، BigQuery برای Data Warehouse، GCP Dataproc و Databricks برای Big Data Pipelines مهندسی داده خدمات تحت محیط توسعه راه اندازی تجزیه و تحلیل داده های GCP با استفاده از کد ویژوال استودیو در Windows Building Data Lake با استفاده از داده های فرآیند GCS در Data Lake با استفاده از Python و Pandas Build Data Warehouse با استفاده از Google BigQuery بارگیری داده ها در جداول Google BigQuery با استفاده از Python و Pandas Setup Development Environment با استفاده از کد ویژوال استودیو در Google Dataproc با اتصال از راه دور پردازش داده های بزرگ یا مهندسی داده با استفاده از برنامه های مبتنی بر Google Dataproc Run Spark SQL به عنوان Dataproc Build Jobs با استفاده از Comman Pipelines ELT مبتنی بر SQL با استفاده از Google Dataproc Workflow Templates Run یا Instantiate ELT Data Pipelines یا Dataproc Workflow Template با استفاده از دستورات gcloud dataproc. با استفاده از Databricks Workflows در GCP ادغام Spark در Dataproc با Google BigQuery Build and Run Spark Based Pipeline ELT با استفاده از Google Dataproc Workflow Template با BigQuery ادغام پیش نیازها: یک کامپیوتر با حداقل 8 گیگابایت رم تجربه برنامه نویسی با استفاده از Python بسیار مورد نظر است. عناوین با استفاده از Python SQL Experience بسیار مورد علاقه است زیرا برخی از موضوعات با استفاده از SQL Nice برای داشتن تجربه مهندسی داده با استفاده از Pandas یا Pyspark نشان داده می شوند این دوره برای مهندسان داده با تجربه ایده آل است تا خدمات تجزیه و تحلیل GCP را به عنوان مهارت های کلیدی به نمایه خود اضافه کنند.

مهندسی داده تماماً در مورد ایجاد خطوط لوله داده است تا داده ها را از منابع متعدد به دریاچه های داده یا انبارهای داده و سپس از دریاچه های داده یا انبارهای داده به سیستم های پایین دستی منتقل کند. به عنوان بخشی از این دوره، من شما را با نحوه ایجاد خطوط لوله مهندسی داده با استفاده از GCP Data Analytics Stack آشنا خواهم کرد. این شامل خدماتی مانند Google Cloud Storage، Google BigQuery، GCP Dataproc، Databricks on GCP و بسیاری موارد دیگر است.

  • به عنوان بخشی از این دوره، ابتدا محیطی را برای یادگیری استفاده از VS Code در ویندوز و مک راه اندازی خواهید کرد.

  • وقتی محیط آماده شد، باید برای حساب Google Cloud ثبت نام کنید. ما همه دستورالعمل‌ها را برای ثبت‌نام در حساب Google Cloud از جمله بررسی صورت‌حساب و همچنین دریافت اعتبار 300 دلاری ارائه می‌کنیم.

  • ما معمولاً از Cloud Object Storage به عنوان Data Lake استفاده می کنیم. به عنوان بخشی از این دوره، نحوه استفاده از Google Cloud Storage به عنوان Data Lake و نحوه مدیریت فایل‌ها در Google Cloud Storage را با استفاده از دستورات و همچنین Python یاد خواهید گرفت. همچنین ادغام پانداها با فایل‌های موجود در Google Cloud Storage را پوشش می‌دهد.

  • GCP RDBMS را به عنوان سرویس از طریق Cloud SQL ارائه می دهد. شما یاد خواهید گرفت که چگونه سرور پایگاه داده Postgresql را با استفاده از Cloud SQL راه اندازی کنید. هنگامی که سرور پایگاه داده راه اندازی شد، شما همچنین مراقب راه اندازی پایگاه داده و کاربر مورد نیاز برنامه خواهید بود. همچنین نحوه توسعه برنامه های کاربردی مبتنی بر پایتون را با ادغام با GCP Secretmanager برای بازیابی اعتبارنامه ها خواهید فهمید.

  • یکی از کاربردهای کلیدی Data چیزی جز ساختن گزارش ها و داشبورد نیست. معمولاً گزارش‌ها و داشبوردها با استفاده از ابزارهای گزارش‌دهی با اشاره به Data Warehouse ساخته می‌شوند. به عنوان بخشی از خدمات تجزیه و تحلیل داده های گوگل، BigQuery می تواند به عنوان انبار داده استفاده شود. با ویژگی های BigQuery به عنوان انبار داده همراه با ادغام های کلیدی با استفاده از پایتون و پاندا آشنا خواهید شد.

  • گاهی اوقات، ما نیاز به پردازش حجم زیادی از داده ها داریم که به عنوان پردازش داده های بزرگ نیز شناخته می شود. GCP Dataproc یک سرویس کلان داده کاملاً مدیریتی با Hadoop، Spark، Kafka و غیره است. شما نه تنها نحوه راه اندازی کلاستر GCP Dataproc را یاد خواهید گرفت، بلکه یاد خواهید گرفت که چگونه از خوشه Dataproc تک گره برای توسعه استفاده کنید. شما محیط توسعه را با استفاده از VS Code با اتصال از راه دور به Dataproc Cluster تنظیم خواهید کرد.

  • وقتی فهمیدید که چگونه با استفاده از Dataproc با Big Data Processing شروع کنید، از ساخت خطوط لوله داده ELT با استفاده از Dataproc Workflow Templates مراقبت خواهید کرد. شما تمام دستورات کلیدی برای ارسال Dataproc Jobs و همچنین Workflow ها را خواهید آموخت. در نهایت با استفاده از Spark SQL خطوط لوله ELT را می سازید.

  • در حالی که Dataproc یک سرویس داده بزرگ بومی GCP است، Databricks یکی دیگر از خدمات برجسته داده بزرگ موجود در GCP است. همچنین خواهید فهمید که چگونه با Databricks در GCP شروع کنید.

  • هنگامی که جزئیات مربوط به نحوه شروع کار با Databricks در GCP را بررسی کردید، از ساختن پایانه به پایان ELT Datapipelins با استفاده از Databricks Jobs و Workflows مراقبت خواهید کرد.

  • در پایان دوره، باید با BigQuery برای Data Warehouse و GCP Dataproc برای پردازش داده راحت باشید، یاد خواهید گرفت که چگونه این دو سرویس کلیدی را با ایجاد خط لوله داده ELT با استفاده از Dataproc Workflow یکپارچه کنید. همچنین خواهید فهمید که چگونه برنامه مبتنی بر Pyspark را با کانکتور Spark BigQuery به عنوان بخشی از Pipeline اضافه کنید.

  • در فرآیند ساخت خطوط لوله داده، همچنین چرخه عمر توسعه برنامه Spark، عیب‌یابی مشکلات مربوط به اسپارک را با استفاده از رابط‌های وب مرتبط مانند YARN Timeline Server، Spark UI، و غیره بازبینی خواهید کرد.


سرفصل ها و درس ها

مقدمه ای بر مهندسی داده با استفاده از تجزیه و تحلیل داده های GCP Introduction to Data Engineering using GCP Data Analytics

  • مقدمه ای بر مهندسی داده با استفاده از تجزیه و تحلیل داده های GCP Introduction to Data Engineering using GCP Data Analytics

  • پیش نیازهای مهندسی داده با استفاده از GCP Data Analytics Pre-requisites for Data Engineering using GCP Data Analytics

  • نکات برجسته مهندسی داده با استفاده از دوره تجزیه و تحلیل داده های GCP Highlights of the Data Engineering using GCP Data Analytics Course

  • مروری بر پلتفرم Udemy برای گذراندن دوره به طور موثر Overview of Udemy Platform to take course effectively

  • سیاست بازپرداخت و درخواست رتبه بندی و بازخورد Refund Policy and Request for Rating and Feedback

راه اندازی محیط برای مهندسی داده با استفاده از تجزیه و تحلیل داده های GCP Setup Environment for Data Engineering using GCP Data Analytics

  • مقدمه ای بر Setup Environment برای مهندسی داده با استفاده از GCP Data Analytics Introduction to Setup Environment for Data Engineering using GCP Data Analytics

  • راه اندازی VS Code در ویندوز Setup VS Code on Windows

  • پایتون 3.9 را روی ویندوز نصب کنید Setup Python 3.9 on Windows

  • پیکربندی PATH متغیر محیطی برای پایتون در ویندوز Configure Environment Variable PATH for Python on Windows

  • VSCode را با پایتون در ویندوز ادغام کنید Integrate VSCode with Python on Windows

  • Git Repo را در ماشین‌های محلی ما دانلود کنید Download Git Repo on to our Local Machines

  • بررسی مهندسی داده در پوشه GCP Review Data Engineering on GCP Folder

  • راه اندازی فضای کاری VS Code برای مهندسی داده در GCP Setup VS Code Workspace for Data Engineering on GCP

  • راه اندازی و ادغام Python 3.9 venv با VS Code Workspace Setup and Integrate Python 3.9 venv with VS Code Workspace

  • راه اندازی و ادغام Python 3.9 venv با VS Code Workspace در ویندوز Setup and Integrate Python 3.9 venv with VS Code Workspace on Windows

  • نتیجه گیری برای راه اندازی محیط برای مهندسی داده با استفاده از تجزیه و تحلیل داده های GCP Conclusion to Setup Environment for Data Engineering using GCP Data Analytics

شروع به کار با GCP برای مهندسی داده با استفاده از تجزیه و تحلیل داده های GCP Getting Started with GCP for Data Engineering using GCP Data Analytics

  • مقدمه ای بر شروع کار با GCP Introduction to Getting Started with GCP

  • مهارت های پیش نیاز برای ثبت نام در دوره GCP Data Analytics Pre-requisite Skills to Sign up for course on GCP Data Analytics

  • مروری بر پلتفرم های ابری Overview of Cloud Platforms

  • نمای کلی Google Cloud Platform یا GCP Overview of Google Cloud Platform or GCP

  • مروری بر امضای حساب GCP Overview of Signing for GCP Account

  • با استفاده از شناسه غیر Gmail یک حساب Google جدید ایجاد کنید Create New Google Account using Non Gmail Id

  • با استفاده از حساب Google برای GCP ثبت نام کنید Sign up for GCP using Google Account

  • مروری بر اعتبارات GCP Overview of GCP Credits

  • نمای کلی پروژه GCP و صورتحساب Overview of GCP Project and Billing

  • نمای کلی Google Cloud Shell Overview of Google Cloud Shell

  • Google Cloud SDK را روی ویندوز نصب کنید Install Google Cloud SDK on Windows

  • gcloud CLI را با استفاده از پروژه GCP راه اندازی کنید Initialize gcloud CLI using GCP Project

  • Google Cloud Shell را با شناسه پروژه مجدداً راه اندازی کنید Reinitialize Google Cloud Shell with Project id

  • بررسی اجمالی سرویس های تجزیه و تحلیل در GCP Overview of Analytics Services on GCP

  • نتیجه گیری برای شروع با GCP برای مهندسی داده Conclusion to Get Started with GCP for Data Engineering

راه اندازی Data Lake با استفاده از Google Cloud Storage Setting up Data Lake using Google Cloud Storage

  • شروع کار با Google Cloud Storage یا GCS Getting Started with Google Cloud Storage or GCS

  • نمای کلی Google Cloud Storage یا GCS Web UI Overview of Google Cloud Storage or GCS Web UI

  • با استفاده از GCP Web UI سطل GCS ایجاد کنید Create GCS Bucket using GCP Web UI

  • با استفاده از GCP Web UI پوشه ها و فایل ها را در سطل GCS آپلود کنید Upload Folders and Files using into GCS Bucket using GCP Web UI

  • سطل ها و اشیاء GCS را با استفاده از دستورات gsutil مرور کنید Review GCS Buckets and Objects using gsutil commands

  • سطل GCS را با استفاده از رابط کاربری وب حذف کنید Delete GCS Bucket using Web UI

  • مخزن داده را در Google Cloud Shell راه اندازی کنید Setup Data Repository in Google Cloud Shell

  • مروری بر مجموعه داده ها Overview of Data Sets

  • مدیریت سطل ها در GCS با استفاده از gsutil Managing Buckets in GCS using gsutil

  • مجموعه داده ها را با استفاده از gsutil در GCS کپی کنید Copy Data Sets into GCS using gsutil

  • پاکسازی سطل ها در GCS با استفاده از gsutil Cleanup Buckets in GCS using gsutil

  • برای مدیریت سطل ها و فایل ها در GCS با استفاده از gsutil تمرین کنید Exercise to Manage Buckets and Files in GCS using gsutil

  • نمای کلی راه اندازی Data Lake با استفاده از GCS Overview of Setting up Data Lake using GCS

  • کتابخانه های ابری گوگل را در محیط مجازی پایتون راه اندازی کنید Setup Google Cloud Libraries in Python Virtual Environment

  • با استفاده از gsutil سطل و فایل‌ها را در GCS تنظیم کنید Setup Bucket and Files in GCS using gsutil

  • شروع به مدیریت فایل ها در GCS با استفاده از پایتون Getting Started to manage files in GCS using Python

  • راه اندازی اعتبار برای Python و GCS ادغام Setup Credentials for Python and GCS Integration

  • مرور روش‌ها در کتابخانه Google Cloud Storage Python Review Methods in Google Cloud Storage Python library

  • با استفاده از پایتون، جزئیات سطل GCS را دریافت کنید Get GCS Bucket Details using Python

  • Blobs یا فایل ها را در GCS با استفاده از Python مدیریت کنید Manage Blobs or Files in GCS using Python

  • بیانیه مشکل پروژه برای مدیریت فایل ها در GCS با استفاده از پایتون Project Problem Statement to Manage Files in GCS using Python

  • طراحی برای آپلود چندین فایل در GCS با استفاده از پایتون Design to Upload multiple files into GCS using Python

  • دریافت نام فایل برای آپلود در GCS با استفاده از Python glob و os Get File Names to upload into GCS using Python glob and os

  • با استفاده از پایتون همه فایل ها را به صورت حباب در GCS آپلود کنید Upload all Files to GCS as blobs using Python

  • اعتبار سنجی فایل ها یا Blobs در GCS با استفاده از Python Validate Files or Blobs in GCS using Python

  • مروری بر پردازش داده ها در GCS با استفاده از پانداها Overview of Processing Data in GCS using Pandas

  • با استفاده از پاندا، داده ها را به پارکت تبدیل کنید و به GCS بنویسید Convert Data to Parquet and Write to GCS using Pandas

  • طراحی برای آپلود چندین فایل در GCS با استفاده از پاندا Design to Upload multiple files into GCS using Pandas

  • دریافت نام فایل برای آپلود در GCS با استفاده از Python glob و os Get File Names to upload into GCS using Python glob and os

  • نمای کلی فرمت فایل پارکت و طرحواره فایل JSON Overview of Parquet File Format and Schemas JSON File

  • با استفاده از Schemas JSON File نام ستون ها را برای مجموعه داده دریافت کنید Get Column Names for Dataset using Schemas JSON File

  • با استفاده از پاندا، تمام فایل‌ها را به‌عنوان پارکت در GCS آپلود کنید Upload all Files to GCS as Parquet using Pandas

  • اعتبار سنجی فایل های کپی شده با استفاده از پاندا را انجام دهید Perform Validation of Files Copied using Pandas

راه اندازی پایگاه داده Postgres با استفاده از Cloud SQL Setup Postgres Database using Cloud SQL

  • مروری بر GCP Cloud SQL Overview of GCP Cloud SQL

  • راه اندازی سرور پایگاه داده Postgres با استفاده از GCP Cloud SQL Setup Postgres Database Server using GCP Cloud SQL

  • پیکربندی شبکه برای پایگاه داده Cloud SQL Postgres Configure Network for Cloud SQL Postgres Database

  • Postgres 14 را روی ویندوز 11 نصب کنید Install Postgres 14 on Windows 11

  • شروع کار با pgAdmin در ویندوز Getting Started with pgAdmin on Windows

  • شروع کار با pgAdmin در مک Getting Started with pgAdmin on Mac

  • اعتبارسنجی ابزارهای مشتری برای Postgres در مک یا رایانه شخصی Validate Client Tools for Postgres on Mac or PC

  • راه اندازی پایگاه داده در سرور GCP Cloud SQL Postgres پایگاه داده Setup Database in GCP Cloud SQL Postgres Database Server

  • راه اندازی جداول در پایگاه داده GCP Cloud SQL Postgres Setup Tables in GCP Cloud SQL Postgres Database

  • اعتبارسنجی داده ها در جداول پایگاه داده GCP Cloud SQL Postgres Validate Data in GCP Cloud SQL Postgres Database Tables

  • ادغام GCP Cloud SQL Postgres با پایتون Integration of GCP Cloud SQL Postgres with Python

  • مروری بر ادغام GCP Cloud SQL Postgres با پانداها Overview of Integration of GCP Cloud SQL Postgres with Pandas

  • خواندن داده ها از فایل ها به قاب داده پاندا Read Data From Files to Pandas Data Frame

  • پردازش داده ها با استفاده از Pandas Dataframe API Process Data using Pandas Dataframe APIs

  • Pandas Dataframe را در جدول پایگاه داده Postgres بنویسید Write Pandas Dataframe into Postgres Database Table

  • اعتبارسنجی داده ها در جداول پایگاه داده Postgres با استفاده از پانداها Validate Data in Postgres Database Tables using Pandas

  • شروع کار با Secrets با استفاده از GCP Secret Manager Getting Started with Secrets using GCP Secret Manager

  • پیکربندی دسترسی به مدیر مخفی GCP از طریق نقش های IAM Configure Access to GCP Secret Manager via IAM Roles

  • کتابخانه Google Cloud Secret Manager Python را نصب کنید Install Google Cloud Secret Manager Python Library

  • با استفاده از پایتون، جزئیات مخفی را از مدیر مخفی GCP دریافت کنید Get Secret Details from GCP Secret Manager using Python

  • با استفاده از Credentials از Secret Manager به پایگاه داده متصل شوید Connect to Database using Credentials from Secret Manager

  • سرور پایگاه داده GCP Cloud SQL Postgres را متوقف کنید Stop GCP Cloud SQL Postgres Database Server

با استفاده از Google Big Query انبار داده بسازید Build Data Warehouse using Google Big Query

  • نمای کلی Google BigQuery Overview of Google BigQuery

  • نمای کلی Google BigQuery Overview of Google BigQuery

  • شروع کار با Google BigQuery Getting Started with Google BigQuery

  • مروری بر عملیات CRUD در Google BigQuery Overview of CRUD Operations in Google BigQuery

  • ادغام یا اضافه کردن به جداول Google BigQuery Merge or Upsert into Google BigQuery Tables

  • مجموعه داده و جداول را در Google BigQuery با استفاده از UI ایجاد کنید Create Dataset and Tables in Google BigQuery using UI

  • جدول را در Google BigQuery با استفاده از Command ایجاد کنید Create Table in Google BigQuery using Command

  • برای ایجاد جداول در Google BigQuery تمرین کنید Exercise to create tables in Google BigQuery

  • مروری بر بارگذاری داده ها از فایل ها در جداول BigQuery Overview of Loading Data from Files into BigQuery Tables

  • شروع کار با ادغام بین Google BigQuery و Python Getting Started with Integration between Google BigQuery and Python

  • داده ها را از فایل های GCS در یک جدول خالی در Google BigQuery بارگیری کنید Load Data from GCS Files into an Empty Table in Google BigQuery

  • Queries را در Google BigQuery با استفاده از برنامه های Python اجرا کنید Run Queries in Google BigQuery using Python Applications

  • برای بارگذاری داده ها در جداول BigQuery تمرین کنید Exercise to Load Data into BigQuery Tables

  • جداول را از Google BigQuery رها کنید Drop Tables from Google BigQuery

  • مروری بر جداول خارجی در BigQuery Overview of External Tables in BigQuery

  • با استفاده از رابط کاربری وب، جدول خارجی Google BigQuery را روی فایل‌های GCS ایجاد کنید Create Google BigQuery External Table on GCS Files using Web UI

  • با استفاده از Command جدول خارجی Google BigQuery را روی فایل‌های GCS ایجاد کنید Create Google BigQuery External Table on GCS Files using Command

  • جداول خارجی Google BigQuery با استفاده از AWS s3 یا Azure Blob یا Google Drive Google BigQuery External Tables using AWS s3 or Azure Blob or Google Drive

  • تمرین برای ایجاد جداول خارجی Google BigQuery Exercise to Create Google BigQuery External Tables

  • مروری بر قابلیت‌های SQL Google BigQuery Overview of SQL Capabilities of Google BigQuery

  • پرس و جوهای اولیه SQL با استفاده از Google BigQuery Basic SQL Queries using Google BigQuery

  • تجمعات تجمعی با استفاده از Google BigQuery Cumulative Aggregations using Google BigQuery

  • محاسبه رتبه ها با استفاده از Google BigQuery Compute Ranks using Google BigQuery

  • با استفاده از Google BigQuery بر اساس رتبه‌ها فیلتر کنید Filter based on Ranks using Google BigQuery

  • مروری بر ادغام های کلیدی با Google BigQuery Overview of Key Integrations with Google BigQuery

  • ادغام پانداهای پایتون با Google BigQuery Python Pandas Integration with Google BigQuery

  • مروری بر یکپارچه سازی بین پایگاه های داده BigQuery و RDBMS Overview of Integration between BigQuery and RDBMS Databases

  • اعتبار سنجی پایگاه داده Cloud SQL Postgres برای ادغام BigQuery Validate Cloud SQL Postgres Database for BigQuery Integration

  • اتصالات خارجی ایجاد کنید و پرس و جوهای خارجی را از Google BigQuery اجرا کنید Create External Connections and Run External Queries from Google BigQuery

  • اجرای جستجوهای خارجی با استفاده از اتصالات خارجی در Google BigQuery Running External Queries using External Connections in Google BigQuery

پردازش کلان داده با استفاده از Google Dataproc Big Data Processing using Google Dataproc

  • شروع به کار با GCP Dataproc Getting Started with GCP Dataproc

  • راه اندازی Single Node Dataproc Cluster برای توسعه Setup Single Node Dataproc Cluster for Development

  • اعتبار سنجی اتصال SSH به گره اصلی خوشه Dataproc Validate SSH Connectivity to Master Node of Dataproc Cluster

  • IP استاتیک را به Master Node VM از Dataproc Cluster اختصاص دهید Allocate Static IP to the Master Node VM of Dataproc Cluster

  • راه اندازی VS Code Remote Window برای Dataproc VM Setup VS Code Remote Window for Dataproc VM

  • راه اندازی فضای کاری با استفاده از کد VS در Dataproc Setup Workspace using VS Code on Dataproc

  • شروع به کار با دستورات HDFS در Dataproc Getting Started with HDFS Commands on Dataproc

  • خلاصه ای از gsutil برای مدیریت فایل ها و پوشه ها در GCS Recap of gsutil to manage files and folders in GCS

  • تنظیمات مجموعه داده ها را در Dataproc Master Node VM مرور کنید Review Data Sets setup on Dataproc Master Node VM

  • فایل های محلی را در HDFS در Dataproc کپی کنید Copy Local Files into HDFS on Dataproc

  • فایل های GCS را در HDFS در Dataproc.cmproj کپی کنید Copy GCS Files into HDFS on Dataproc.cmproj

  • Pyspark CLI را در Dataproc Cluster اعتبار سنجی کنید Validate Pyspark CLI in Dataproc Cluster

  • اعتبار سنجی Spark Scala CLI در Dataproc Cluster Validate Spark Scala CLI in Dataproc Cluster

  • اعتبار سنجی Spark SQL CLI در Dataproc Cluster Validate Spark SQL CLI in Dataproc Cluster

خطوط لوله داده ELT با استفاده از Dataproc در GCP ELT Data Pipelines using Dataproc on GCP

  • مروری بر GCP Dataproc Jobs و Workflow Overview of GCP Dataproc Jobs and Workflow

  • تنظیم JSON Dataset در GCS برای Dataproc Jobs Setup JSON Dataset in GCS for Dataproc Jobs

  • دستورات Spark SQL مورد استفاده برای Dataproc Jobs را مرور کنید Review Spark SQL Commands used for Dataproc Jobs

  • Dataproc Job را با استفاده از Spark SQL اجرا کنید Run Dataproc Job using Spark SQL

  • مروری بر مدولار کردن برنامه های کاربردی Spark SQL برای Dataproc Overview of Modularizing Spark SQL Applications for Dataproc

  • اسکریپت های Spark SQL را برای Dataproc Jobs و Workflow ها مرور کنید Review Spark SQL Scripts for Dataproc Jobs and Workflows

  • اعتبارسنجی اسکریپت Spark SQL برای تبدیل فرمت فایل Validate Spark SQL Script for File Format Conversion

  • برای تبدیل فرمت فایل با استفاده از Spark SQL Script تمرین کنید Exercise to convert file format using Spark SQL Script

  • اعتبارسنجی اسکریپت Spark SQL برای درآمد روزانه محصول Validate Spark SQL Script for Daily Product Revenue

  • برای پاکسازی پایگاه های داده Spark SQL Script را توسعه دهید Develop Spark SQL Script to Cleanup Databases

  • اسکریپت های Spark SQL را در GCS کپی کنید Copy Spark SQL Scripts to GCS

  • اسکریپت های Spark SQL را در GCS اجرا و اعتبار سنجی کنید Run and Validate Spark SQL Scripts in GCS

  • محدودیت‌های اجرای اسکریپت‌های Spark SQL با استفاده از Dataproc Jobs Limitations of Running Spark SQL Scripts using Dataproc Jobs

  • خوشه های Dataproc را با استفاده از دستورات gcloud مدیریت کنید Manage Dataproc Clusters using gcloud Commands

  • Dataproc Jobs را با استفاده از Spark SQL Command یا Query اجرا کنید Run Dataproc Jobs using Spark SQL Command or Query

  • Dataproc Jobs را با استفاده از Spark SQL Scripts اجرا کنید Run Dataproc Jobs using Spark SQL Scripts

  • تمرین هایی برای اجرای اسکریپت های Spark SQL به عنوان Dataproc Jobs با استفاده از gcloud Exercises to Run Spark SQL Scripts as Dataproc Jobs using gcloud

  • Dataproc Jobs را با استفاده از دستورات gcloud حذف کنید Delete Dataproc Jobs using gcloud commands

  • اهمیت استفاده از دستورات gcloud برای مدیریت کارهای dataproc Importance of using gcloud commands to manage dataproc jobs

  • شروع کار با الگوهای گردش کار Dataproc با استفاده از رابط کاربری وب Getting Started with Dataproc Workflow Templates using Web UI

  • مراحل و طراحی را برای ایجاد الگوی گردش کار Dataproc مرور کنید Review Steps and Design to create Dataproc Workflow Template

  • با استفاده از دستورات gcloud قالب Dataproc Workflow را ایجاد کرده و Cluster اضافه کنید Create Dataproc Workflow Template and Add Cluster using gcloud Commands

  • دستورات gcloud را برای افزودن مشاغل به الگوهای Dataproc Workflow مرور کنید Review gcloud Commands to Add Jobs to Dataproc Workflow Templates

  • با استفاده از دستورات، Jobs را به قالب Dataproc Workflow اضافه کنید Add Jobs to Dataproc Workflow Template using Commands

  • الگوی گردش کار Dataproc را برای اجرای Data Pipeline راه اندازی کنید Instantiate Dataproc Workflow Template to run the Data Pipeline

  • مروری بر عملیات Dataproc و حذف اجراهای گردش کار Overview of Dataproc Operations and Deleting Workflow Runs

  • خط لوله داده ELT را با استفاده از Dataproc اجرا و اعتبار سنجی کنید Run and Validate ELT Data Pipeline using Dataproc

  • Cluster Dataproc را متوقف کنید Stop Dataproc Cluster

پردازش کلان داده با استفاده از Databricks در GCP Big Data Processing using Databricks on GCP

  • مروری بر Databicks در GCP Overview of Databicks on GCP

  • ثبت نام برای Databricks در GCP Signing up for Databricks on GCP

  • ایجاد فضای کاری Databricks در GCP Create Databricks Workspace on GCP

  • شروع کار با Databricks Cluster در GCP Getting Started with Databricks Clusters on GCP

  • شروع کار با Databricks Notebook Getting Started with Databricks Notebook

  • مروری بر Databricks در GCP Overview of Databricks on GCP

  • بررسی اجمالی دستورات Databricks CLI Overview of Databricks CLI Commands

  • محدودیت های مدیریت DBFS با استفاده از Databricks CLI Limitations of Managing DBFS using Databricks CLI

  • نمای کلی از کپی مجموعه داده ها در DBFS در GCS Overview of Copying Data Sets into DBFS on GCS

  • با استفاده از دستورات DBFS پوشه در GCS ایجاد کنید Create Folder in GCS using DBFS Commands

  • با استفاده از GCS Web UI مجموعه داده را در DBFS آپلود کنید Upload Data Set into DBFS using GCS Web UI

  • مجموعه داده ها را با استفاده از gsutil در DBFS کپی کنید Copy Data Set into DBFS using gsutil

  • پردازش داده ها در DBFS با استفاده از Databricks Spark SQL Process Data in DBFS using Databricks Spark SQL

  • شروع با Spark SQL مثال با استفاده از Databricks Getting Started with Spark SQL Example using Databricks

  • ایجاد نماهای موقت با استفاده از Spark SQL Create Temporary Views using Spark SQL

  • برای ایجاد نماهای موقت با استفاده از Spark SQL تمرین کنید Exercise to create temporary views using Spark SQL

  • برای محاسبه درآمد روزانه محصول، Query SQL را جرقه بزنید Spark SQL Query to compute Daily Product Revenue

  • نتیجه پرس و جو را با استفاده از Spark SQL در DBFS ذخیره کنید Save Query Result to DBFS using Spark SQL

  • مروری بر نمونه های Pyspark در Databricks.cmproj Overview of Pyspark Examples on Databricks.cmproj

  • جزئیات طرحواره را در JSON با استفاده از Pyspark پردازش کنید Process Schema Details in JSON using Pyspark

  • با استفاده از Pyspark از فایل JSON با Schema Dataframe ایجاد کنید Create Dataframe with Schema from JSON File using Pyspark

  • تبدیل داده ها با استفاده از Spark API Transform Data using Spark APIs

  • با استفاده از Pyspark جزئیات طرحواره را برای همه مجموعه داده ها دریافت کنید Get Schema Details for all Data Sets using Pyspark

  • با استفاده از Pyspark CSV را به پارکت با Schema تبدیل کنید Convert CSV to Parquet with Schema using Pyspark

خطوط داده ELT با استفاده از Databricks در GCP ELT Data Pipelines using Databricks on GCP

  • مروری بر گردش کار Databricks Overview of Databricks Workflows

  • ارسال آرگومان ها به نوت بوک های پایتون Databricks Pass Arguments to Databricks Python Notebooks

  • ارسال آرگومان ها به نوت بوک های Databricks SQL Pass Arguments to Databricks SQL Notebooks

  • ایجاد و اجرای First Databricks Job Create and Run First Databricks Job

  • Databricks Jobs و Tasks را با پارامترها اجرا کنید Run Databricks Jobs and Tasks with Parameters

  • با استفاده از Databricks Job خط لوله هماهنگ را ایجاد و اجرا کنید Create and Run Orchestrated Pipeline using Databricks Job

  • وارد کردن ELT Data Pipeline Applications به Databricks Environment Import ELT Data Pipeline Applications into Databricks Environment

  • برنامه Spark SQL برای پاکسازی پایگاه داده و مجموعه داده ها Spark SQL Application to Cleanup Database and Datasets

  • کد Pyspark مبدل فرمت فایل را بررسی کنید Review File Format Converter Pyspark Code

  • نوت بوک های Databricks SQL را برای جداول و نتایج نهایی مرور کنید Review Databricks SQL Notebooks for Tables and Final Results

  • اعتبار سنجی برنامه های کاربردی برای خط لوله ELT با استفاده از Databricks Validate Applications for ELT Pipeline using Databricks

  • خط لوله ELT را با استفاده از Databricks Job در گردش کار بسازید Build ELT Pipeline using Databricks Job in Workflows

  • اجرای و بررسی جزئیات اجرای خط لوله داده ELT با استفاده از Databricks Job Run and Review Execution details of ELT Data Pipeline using Databricks Job

  • پاکسازی محیط Databricks در GCP Cleanup Databricks Environment on GCP

ادغام Spark در Google Dataproc و BigQuery Integration of Spark on Google Dataproc and BigQuery

  • بررسی محیط توسعه با VS Code با استفاده از Dataproc Cluster Review Development Environment with VS Code using Dataproc Cluster

  • اعتبارسنجی Google BigQuery ادغام با پایتون در Dataproc Validate Google BigQuery Integration with Python on Dataproc

  • جداول بومی را در Google BigQuery تنظیم کنید Setup Native Tables in Google BigQuery

  • مرورگر Spark Google BigQuery Connector Review Spark Google BigQuery Connector

  • ادغام Spark در Dataproc و BigQuery با استفاده از Pyspark CLI Integration of Spark on Dataproc and BigQuery using Pyspark CLI

  • ادغام Spark در Dataproc و BigQuery با استفاده از Notebook Integration of Spark on Dataproc and BigQuery using Notebook

  • بررسی طراحی خط لوله داده با استفاده از Spark و BigQuery Review Design of Data Pipeline using Spark and BigQuery

  • برنامه های Spark را برای محاسبه درآمد روزانه محصول مرور کنید Review Spark Applications to compute daily product revenue

  • جدولی برای درآمد روزانه محصول در Google BigQuery ایجاد کنید Create Table for Daily Product Revenue in Google BigQuery

  • اعتبارسنجی فایل‌های پارکت برای درآمد روزانه محصول در GCS Validate Parquet Files for Daily Product Revenue in GCS

  • منطق را توسعه دهید تا درآمد روزانه محصول را در جدول BigQuery ذخیره کنید Develop Logic to Save Daily Product Revenue to BigQuery Table

  • بازنشانی جدول درآمد روزانه محصول در Google BigQuery Reset Daily Product Revenue Table in Google BigQuery

  • کد برنامه Spark را برای نوشتن در جدول BigQuery مرور کنید Review Spark Application Code to Write to BigQuery Table

  • با استفاده از حالت کلاینت، برنامه Spark را با یکپارچه سازی BigQuery ارسال کنید Submit Spark Application with BigQuery Integration using Client Mode

  • برنامه Spark را با یکپارچه سازی BigQuery با استفاده از حالت کلاستر ارسال کنید Submit Spark Application with BigQuery Integration using Cluster Mode

  • استقرار برنامه Spark با ادغام BigQuery در GCS Deploy Spark Application with BigQuery Integration in GCS

  • تغییر به محیط توسعه محلی از Dataproc Switching to Local Development Environment from Dataproc

  • اجرای Spark Application به عنوان Dataproc Job با استفاده از Web UI Run Spark Application as Dataproc Job using Web UI

  • اجرای Spark Application به عنوان Dataproc Job با استفاده از Command Run Spark Application as Dataproc Job using Command

  • Dataproc Jobs و Spark Application را با استفاده از Dataproc UI مرور کنید Review Dataproc Jobs and Spark Application using Dataproc UI

  • بررسی اجمالی ارکستراسیون با استفاده از دستورات Dataproc برای برنامه های Spark در Overview of Orchestration using Dataproc Commands for Spark Applications on

  • مروری بر خط لوله ELT با استفاده از Dataproc Workflows Overview of ELT Pipeline using Dataproc Workflows

  • قالب گردش کار را با برنامه های Spark SQL ایجاد کنید Create Workflow Template with Spark SQL Applications

  • برنامه Pyspark را به قالب Dataproc Workflow اضافه کنید Add Pyspark Application to Dataproc Workflow Template

  • قالب Dataproc Workflow را با استفاده از دستور Dataproc اجرا کنید Run Dataproc Workflow Template using Dataproc Command

  • ویژگی های شغلی را در قالب Dataproc Workflow به روز کنید Update Job Properties in Dataproc Workflow Template

هماهنگ سازی خط لوله داده با استفاده از Google Cloud Composer Data Pipeline Orchestration using Google Cloud Composer

  • ایجاد جریان هوا یا محیط Cloud Composer Create Airflow or Cloud Composer Environment

  • محیط Google Cloud Composer را مرور کنید Review Google Cloud Composer Environment

  • فرآیند توسعه DAG های جریان هوا برای Cloud Composer Development Process of Airflow DAGs for Cloud Composer

  • وابستگی های مورد نیاز برای توسعه DAG های جریان هوا را نصب کنید Install Required Dependencies for Development of Airflow DAGs

  • دستورات جریان هوا را در Cloud Composer با استفاده از gcloud اجرا کنید Run Airflow Commands in Cloud Composer using gcloud

  • مروری بر معماری جریان هوا Overview of Airflow Architecture

  • First Airflow DAG را در محیط Google Cloud Composer اجرا و اجرا کنید Deploy and Run First Airflow DAG in Google Cloud Composer Environment

  • درک رابطه بین اسکریپت های پایتون و DAG های جریان هوا Understand Relationship between Python Scripts and Airflow DAGs

  • بررسی کد DAGها و وظایف جریان هوا Code Review of Airflow DAGs and Tasks

  • مروری بر اپراتورهای Airflow Dataproc Overview of Airflow Dataproc Operators

  • Airflow DAG را با اپراتور الگوی GCP Dataproc Workflow مرور کنید Review Airflow DAG with GCP Dataproc Workflow Template Operator

  • استقرار و اجرای GCP Dataproc Workflow با استفاده از Airflow Deploy and Run GCP Dataproc Workflow using Airflow

  • استفاده از متغیرها در DAG های جریان هوا Using Variables in Airflow DAGs

  • استقرار و اجرای DAG های جریان هوا با متغیرها Deploy and Run Airflow DAGs with Variables

  • مروری بر خط لوله داده با استفاده از Cloud Composer و Dataproc Jobs Overview of Data Pipeline using Cloud Composer and Dataproc Jobs

  • برنامه های Spark مربوط به Data Pipeline را مرور کنید Review the Spark Applications related to the Data Pipeline

  • Airflow DAG را برای خط لوله هماهنگ با استفاده از Dataproc Jobs مرور کنید Review Airflow DAG for Orchestrated Pipeline using Dataproc Jobs

  • خط لوله داده یا DAG جریان هوا را با استفاده از Dataproc Jobs مستقر کنید Deploy Data Pipeline or Airflow DAG using Dataproc Jobs

  • منبع و هدف را قبل از استقرار Airflow DAG مرور کنید Review Source and Target before Deployment of Airflow DAG

  • استقرار و اجرای Airflow DAG با Dataproc Jobs Deploy and Run Airflow DAG with Dataproc Jobs

  • تفاوت بین Dataproc Workflow و Airflow DAGs Differences Between Dataproc Workflows and Airflow DAGs

  • Cleanup Cloud Composer Environment و Dataproc Cluster Cleanup Cloud Composer Environment and Dataproc Cluster

خطوط لوله داده با استفاده از DBT، Airflow و Google BigQuery Data Pipelines using DBT, Airflow and Google BigQuery

  • مروری بر چشم انداز داده های شرکت های بزرگ Overview of Data Landscape of Large Enterprise

  • معماری سطح بالا DBT DBT High Level Architecture

  • مروری بر ویژگی‌های DBT Cloud و آداپتورهای DBT Overview of DBT Cloud Features and DBT Adapters

  • تفاوت بین ETL و ELT Differences between ETL and ELT

  • جریان هوا و الگوهای خط لوله DBT Airflow and DBT Pipeline Patterns

  • پیش نیازهای محیط توسعه دهنده با استفاده از جریان هوا و DBT Pre-requisites for Dev Environment using Airflow and DBT

  • Astro CLI را در ویندوز یا مک راه اندازی کنید Setup Astro CLI on Windows or Mac

  • با استفاده از VSCode فضای کاری را راه اندازی کنید Setup Workspace using VSCode

  • با استفاده از Astro CLI، محیط جریان هوای محلی را تنظیم کنید Setup Local Airflow Environment using Astro CLI

  • راه اندازی محیط مجازی پایتون با جریان هوا Setup Python Virtual Environment with Airflow

  • مروری بر ارائه دهندگان جریان هوا Overview of Airflow Providers

  • کانتینرهای جریان هوای محلی را با استفاده از Astro CLI مدیریت کنید Manage Local Airflow Containers using Astro CLI

  • با استفاده از Astro CLI به کانتینرهای جریان هوا وصل شوید و گزارش‌ها را مرور کنید Connect to Airflow Containers and Review Logs using Astro CLI

  • مجموعه داده ها را برای خطوط لوله جریان هوا یا DAG تنظیم کنید Setup Datasets for Airflow Pipelines or DAGs

  • راه اندازی سطل GCS و مجموعه داده آپلود Setup GCS Bucket and Upload Data Set

  • شروع کار با Google BigQuery Getting Started with Google BigQuery

  • با استفاده از Google BigQuery جدول خارجی ایجاد کنید Create External Table using Google BigQuery

  • حساب سرویس GCP و بارگیری اعتبار ایجاد کنید Create GCP Service Account and Download Credentials

  • شروع کار با DBT Cloud Getting Started with DBT Cloud

  • پروژه DBT Cloud را برای Google BigQuery راه اندازی کنید Setup DBT Cloud Project for Google BigQuery

  • بررسی و اجرای نمونه خط لوله DBT با استفاده از DBT Cloud Review and Run Example DBT Pipeline using DBT Cloud

  • اعتبار سنجی اشیاء BigQuery Google ایجاد شده توسط DBT Pipeline Validate Google BigQuery Objects created by DBT Pipeline

  • مروری بر خط لوله ELT با استفاده از DBT و Google BigQuery Overview of ELT Pipeline using DBT and Google BigQuery

  • ساختار پروژه DBT را از نمونه تغییر دهید Change the DBT Project Structure from example

  • ایجاد مدل برای سفارشات و سفارش اقلام Create Models for Orders and Order Items

  • مدل غیرعادی شده را برای جزئیات سفارش تعریف کنید Define Denormalized Model for Order Details

  • پرس و جو برای محاسبه درآمد روزانه محصول Query to compute daily product revenue

  • اضافه کردن مدل برای درآمد روزانه محصول Add Model for Daily Product Revenue

  • ایجاد و اجرای DBT Cloud Job Create and Run DBT Cloud Job

  • اعتبار جریان هوا و بررسی ارائه دهنده ابر DBT Validate Airflow and Review DBT Cloud Provider

  • Airflow DBT Cloud Provider را نصب کنید Install Airflow DBT Cloud Provider

  • بررسی اجمالی خط لوله داده هماهنگ شده از انتها به انتها با استفاده از جریان هوا Overview of End to End Orchestrated Data Pipeline using Airflow

  • اتصال ابر DBT را در جریان هوا ایجاد کنید Create DBT Cloud Connection in Airflow

  • متغیرهای شغلی DBT را در جریان هوا ایجاد کنید Create DBT Job Variables in Airflow

  • Airflow DAG را برای فعال کردن DBT Cloud Job توسعه دهید Develop Airflow DAG to trigger DBT Cloud Job

  • Airflow DAG را با DBT Cloud اجرا کنید Deploy Airflow DAG with DBT Cloud

  • Airflow DAG را با DBT Cloud Job اجرا کنید Run Airflow DAG with DBT Cloud Job

نمایش نظرات

آموزش کارشناسی ارشد مهندسی داده با استفاده از تجزیه و تحلیل داده های GCP
جزییات دوره
19.5 hours
281
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,584
4.6 از 5
ندارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Durga Viswanatha Raju Gadiraju Durga Viswanatha Raju Gadiraju

مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده