مهندسی داده تماماً در مورد ایجاد خطوط لوله داده است تا داده ها را از منابع متعدد به دریاچه های داده یا انبارهای داده و سپس از دریاچه های داده یا انبارهای داده به سیستم های پایین دستی منتقل کند. به عنوان بخشی از این دوره، من شما را با نحوه ایجاد خطوط لوله مهندسی داده با استفاده از GCP Data Analytics Stack آشنا خواهم کرد. این شامل خدماتی مانند Google Cloud Storage، Google BigQuery، GCP Dataproc، Databricks on GCP و بسیاری موارد دیگر است.
به عنوان بخشی از این دوره، ابتدا محیطی را برای یادگیری استفاده از VS Code در ویندوز و مک راه اندازی خواهید کرد.
وقتی محیط آماده شد، باید برای حساب Google Cloud ثبت نام کنید. ما همه دستورالعملها را برای ثبتنام در حساب Google Cloud از جمله بررسی صورتحساب و همچنین دریافت اعتبار 300 دلاری ارائه میکنیم.
ما معمولاً از Cloud Object Storage به عنوان Data Lake استفاده می کنیم. به عنوان بخشی از این دوره، نحوه استفاده از Google Cloud Storage به عنوان Data Lake و نحوه مدیریت فایلها در Google Cloud Storage را با استفاده از دستورات و همچنین Python یاد خواهید گرفت. همچنین ادغام پانداها با فایلهای موجود در Google Cloud Storage را پوشش میدهد.
GCP RDBMS را به عنوان سرویس از طریق Cloud SQL ارائه می دهد. شما یاد خواهید گرفت که چگونه سرور پایگاه داده Postgresql را با استفاده از Cloud SQL راه اندازی کنید. هنگامی که سرور پایگاه داده راه اندازی شد، شما همچنین مراقب راه اندازی پایگاه داده و کاربر مورد نیاز برنامه خواهید بود. همچنین نحوه توسعه برنامه های کاربردی مبتنی بر پایتون را با ادغام با GCP Secretmanager برای بازیابی اعتبارنامه ها خواهید فهمید.
یکی از کاربردهای کلیدی Data چیزی جز ساختن گزارش ها و داشبورد نیست. معمولاً گزارشها و داشبوردها با استفاده از ابزارهای گزارشدهی با اشاره به Data Warehouse ساخته میشوند. به عنوان بخشی از خدمات تجزیه و تحلیل داده های گوگل، BigQuery می تواند به عنوان انبار داده استفاده شود. با ویژگی های BigQuery به عنوان انبار داده همراه با ادغام های کلیدی با استفاده از پایتون و پاندا آشنا خواهید شد.
گاهی اوقات، ما نیاز به پردازش حجم زیادی از داده ها داریم که به عنوان پردازش داده های بزرگ نیز شناخته می شود. GCP Dataproc یک سرویس کلان داده کاملاً مدیریتی با Hadoop، Spark، Kafka و غیره است. شما نه تنها نحوه راه اندازی کلاستر GCP Dataproc را یاد خواهید گرفت، بلکه یاد خواهید گرفت که چگونه از خوشه Dataproc تک گره برای توسعه استفاده کنید. شما محیط توسعه را با استفاده از VS Code با اتصال از راه دور به Dataproc Cluster تنظیم خواهید کرد.
وقتی فهمیدید که چگونه با استفاده از Dataproc با Big Data Processing شروع کنید، از ساخت خطوط لوله داده ELT با استفاده از Dataproc Workflow Templates مراقبت خواهید کرد. شما تمام دستورات کلیدی برای ارسال Dataproc Jobs و همچنین Workflow ها را خواهید آموخت. در نهایت با استفاده از Spark SQL خطوط لوله ELT را می سازید.
در حالی که Dataproc یک سرویس داده بزرگ بومی GCP است، Databricks یکی دیگر از خدمات برجسته داده بزرگ موجود در GCP است. همچنین خواهید فهمید که چگونه با Databricks در GCP شروع کنید.
هنگامی که جزئیات مربوط به نحوه شروع کار با Databricks در GCP را بررسی کردید، از ساختن پایانه به پایان ELT Datapipelins با استفاده از Databricks Jobs و Workflows مراقبت خواهید کرد.
در پایان دوره، باید با BigQuery برای Data Warehouse و GCP Dataproc برای پردازش داده راحت باشید، یاد خواهید گرفت که چگونه این دو سرویس کلیدی را با ایجاد خط لوله داده ELT با استفاده از Dataproc Workflow یکپارچه کنید. همچنین خواهید فهمید که چگونه برنامه مبتنی بر Pyspark را با کانکتور Spark BigQuery به عنوان بخشی از Pipeline اضافه کنید.
در فرآیند ساخت خطوط لوله داده، همچنین چرخه عمر توسعه برنامه Spark، عیبیابی مشکلات مربوط به اسپارک را با استفاده از رابطهای وب مرتبط مانند YARN Timeline Server، Spark UI، و غیره بازبینی خواهید کرد.
مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده
نمایش نظرات