آموزش Prophecy for Data Engineering: Low-code Transformation Data

Prophecy for Data Engineering: Low-code Data Transformation

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: یادگیری Databricks و Spark Data Engineering برای ارائه تبدیل داده های سلف سرویس و توسعه خط لوله سرعت یادگیری و طراحی پارادایم lakehouse داده برای یک شرکت تجارت الکترونیکی محیط آزمایشگاه دستی با این دوره ارائه شده است. پیاده سازی و استقرار معماری مدال با استفاده از Prophecy در حال اجرا در Databricks Apache Spark و بهترین شیوه های آن را با موارد استفاده واقعی می شناسد به اشتراک گذاری و گسترش اجزای Pipeline با متخصصان و تحلیلگران داده استقرار Pipelines تا تولید و CI/CD و بهترین شیوه ها استفاده از کنترل نسخه و مدیریت تغییر در مهندسی داده استقرار بررسی کیفیت داده ها و واحد تست های پیش نیازها: بدون نیاز به تجربه برنامه نویسی. شما از رابط کاربری کم کد برای ایجاد یک پیاده سازی داده های واقعی استفاده خواهید کرد

این دوره برای کمک به مهندسان داده و تحلیلگران برای ایجاد یک معماری مدالیون در یک خانه دریاچه داده طراحی شده است. این برنامه با هدف کمک به شما در شروع سفر مهندسی داده خود با Spark و Prophecy ایجاد شده است.

ما با مرحله‌بندی داده‌های دریافت شده از پلتفرم‌های کاربردی مانند Salesforce، پایگاه‌های داده عملیاتی با داده‌های تراکنش CDC، و داده‌های تولید شده توسط ماشین مانند گزارش‌ها و معیارها شروع می‌کنیم. ما جداول دریافت شده را تمیز و عادی می کنیم تا یک مدل داده کامل، تمیز و کارآمد تهیه کنیم. از آن مدل داده، ما چهار پروژه ایجاد می‌کنیم که برنامه‌های مصرفی را برای موارد استفاده مختلف در دنیای واقعی ایجاد می‌کنند. با هر یک از پروژه‌ها، چیز جدیدی یاد خواهید گرفت:


  1. ما یک صادرات صفحه گسترده برای بخش مالی شما ایجاد خواهیم کرد، جایی که مفاهیم مدل‌سازی و تبدیل داده‌ها را بررسی خواهیم کرد. از آنجایی که بخش مالی واقعاً به کیفیت داده‌ها اهمیت می‌دهد، می‌خواهیم درباره نحوه راه‌اندازی واحد و تست‌های یکپارچه‌سازی برای حفظ کیفیت بالا نیز بیاموزیم.

  2. ما یک سیستم هشدار برای تیم پشتیبانی عملیاتی شما ایجاد خواهیم کرد تا از موفقیت مشتری اطمینان حاصل کنیم، جایی که می خواهیم در مورد بهترین شیوه های ارکستراسیون بیاموزیم.

  3. آپلود داده‌های فروش که می‌تواند به Salesforce بازگردانده شود، جایی که مفاهیم توسعه‌پذیری پیشرفته را بررسی می‌کنیم که به ما امکان می‌دهد شیوه‌های استاندارد شده را ایجاد و دنبال کنیم.

  4. یک داشبورد مستقیماً در Databricks برای تیم محصول شما برای نظارت بر استفاده زنده. در اینجا ما چیزهای زیادی در مورد مشاهده پذیری و کیفیت داده ها می آموزیم.

بهترین قسمت؟ تمام کدهایی که قرار است ساخته شوند کاملاً منبع باز و در دسترس هستند. شما قادر خواهید بود هر آنچه را که در اینجا می آموزید در پروژه های واقعی خود به کار ببرید.

تمام تیم ما از بهترین مهندسان داده و معماران کلاس ما با تجربه‌های فراوان از شرکت‌هایی مانند Salesforce، Databricks، و Instagram، گام به گام شما را برای ایجاد این موارد استفاده راهنمایی می‌کنند.


سرفصل ها و درس ها

استقبال گرم از بنیانگذار Prophecy A warm welcome from Prophecy's co-founder

  • به Prophecy for Data Engineering خوش آمدید Welcome to Prophecy for Data Engineering

  • برای محیط آزمایشگاه خود ثبت نام کنید. بیا بریم! Sign up for your lab environment. Let's go!

آینده تحول داده ها The future of data transformation

  • آینده تحول داده ها چیست؟ What's the future of data transformation

  • سیر تحول داده ها The evolution of data transformation

  • راه حل ایده آل تبدیل داده برای ابر Ideal data transformation solution for the cloud

  • پیشگویی و آینده تحول داده ها Prophecy and the future of data transformation

  • نحوه ایجاد تبدیل داده ایده آل در فضای ابری How to build the ideal data transformation in the cloud

دریاچه های داده، انبارها و دریاچه ها - چه زمانی از چه چیزی استفاده کنیم؟ (اختیاری) Data lakes, warehouses, and lakehouses - when to use what? (Optional)

  • دریاچه داده چیست و تفاوت بین دریاچه داده و انبار داده What is a data lake and the difference between a data lake and data warehouses

  • معرفی داده lakehouse و چرا راه حل عالی است Introducing data lakehouse and why it's the perfect solution

مقدمه ای بر Spark و Databricks (اختیاری) Introduction to Spark and Databricks (Optional)

  • با استاد و ماژول خود آشنا شوید Meet your instructor and module overview

  • معماری و مفاهیم آپاچی اسپارک Apache Spark architecture and concepts

  • زبان و ابزار جرقه Spark language and tooling

  • از Apache Spark تا Databricks - چرا آنها متفاوت هستند؟ From Apache Spark to Databricks - why are they different?

  • داده lakehouse، کاتالوگ وحدت، بهینه سازی و امنیت Data lakehouse, unity catalog, optimization and security

  • کار با بهترین شیوه های Spark Working with Spark best practices

  • نکات و ترفندهای Spark و Databricks Spark and Databricks tips and tricks

شروع با Prophecy Getting started with Prophecy

  • مروری بر نبوت - بیایید با هم یاد بگیریم! Prophecy Overview - let's learn together!

  • راه اندازی Databricks Fabric برای اجرای Pipelines ما Setting up a Databricks Fabric to execute our Pipelines

  • یک پروژه Prophecy برای مدیریت کد Spark ما ایجاد کنید Create a Prophecy Project to manage our Spark code

  • یک خط لوله ایجاد کنید و از منابع داده بخوانید تا شروع به ساخت خط لوله خود کنید Create a Pipeline and read from Data Sources to start building our Pipeline

  • نمای کد را کاوش کنید و تجمیع های ساده را انجام دهید Explore code view and perform simple aggregations

  • به داده های حساب ها و فرصت ها بپیوندید و نتایج را در جدول دلتا بنویسید Join accounts and opportunities data and write results to a delta table

  • استقرار خطوط لوله در تولید برای اجرای خطوط لوله برنامه ریزی شده ما Deploying Pipelines to production to run our scheduled Pipelines

  • مقدمه ای بر کاربران و تیم های Prophecy Introduction to Prophecy Users and Teams

  • اولین خط لوله خود را تکمیل و اجرا کنید Complete and run your first Pipeline

منابع داده و اهداف Data Sources and Targets

  • مروری بر منابع داده و اهداف Data Sources and Targets overview

  • تجزیه و تحلیل و خواندن داده های خام از ذخیره شی با بهترین شیوه ها Parse and read raw data from object store with best practices

  • پیشگویی داخلی منابع داده و مجموعه داده Prophecy built-in Data Sources and Data Sets

  • گزینه های پیش فرض منبع داده را کاوش کنید Explore Data Source default options

  • خواندن و تجزیه و تحلیل داده های پارکت منبع و طرح ادغام Read and parse source parquet data and merge schema

  • هنگام خواندن از فروشگاه های اشیا، سوابق خراب و نادرست را مدیریت کنید Handle corrupt and malformed records when reading from object stores

  • گزینه های اضافی برای رسیدگی به پرونده های فاسد و نادرست Additional options to handle corrupt and malformed reocrds

  • با طرح و جداکننده داده منبع کار کنید Work with source data schema and delimiters

  • از جداول دلتا به عنوان منبع بخوانید Read from delta tables as sources

  • با استفاده از Gem هدف، داده ها را در جدول دلتا بنویسید Write data to a delta table using a target Gem

  • پارتیشن بندی داده ها هنگام نوشتن در جدول دلتا برای عملکرد بهینه Partition data when writing to a delta table for optimal performance

  • آنچه در این ماژول آموخته ایم What we've learned in this module

  • کار با سوابق ناقص و خراب Working with malformed, corrupted records

معماری دیتا لیک هاوس Data Lakehouse Architecture

  • نمای کلی ماژول معماری دیتا لیک هاوس و مدالیون Data lakehouse and the medallion architecture module overview

  • معماری مدالیون - ویژگی های لایه برنز، نقره و طلا Medallion architecture - bronze, silver, and gold layer characteristics

  • خواندن و نوشتن داده ها توسط پارتیشن - بارگیری روزانه از ذخیره سازی اشیاء Read and write data by partition - daily load from object storage

  • بارگذاری اطلاعات اضافی توسط پارتیشن - بارگیری روزانه از ذخیره سازی اشیاء Additional data load by partition - daily load from object storage

  • مقدمه ای بر مدل های داده در یک خانه دریاچه داده Introduction to data models in a data lakehouse

  • داده های لایه برنز را در جداول دلتا بنویسید Write the bronze layer data to delta tables

  • مقدمه ای بر تغییرات آهسته ابعاد (SCD) Introduction to Slowly Changing Dimensions (SCD)

  • اجرای SCD2 ساده برای جدول لایه برنز Implement simple SCD2 for bronze layer table

  • بارگذاری انبوه گزینه های خواندن و نوشتن Bulk load read and write options

  • بارگذاری انبوه داده های تاریخی با SCD2 Bulk load historical data with SCD2

  • نسخه سازی داده های جدول دلتا Delta table data versioning

  • با طرحواره های ناسازگار کار کنید Work with incompatible schemas

  • بازیابی اطلاعات نسخه قبلی Recover data from a previous version

  • خلاصه ای از آنچه در این ماژول آموخته ایم A summary of what we've learned in this module

  • بار فله لایه برنز Bronze layer bulk load

  • بار افزایشی روزانه لایه برنز Bronze layer daily incremental load

  • جدول SCD1 را برای مشتریان پیاده کنید Implement SCD1 for customers table

ساخت لایه های نقره و طلا Building the Silver and Gold Layers

  • ساخت لایه های نقره و طلا - بررسی اجمالی Building the Silver and Gold layers - Overview

  • یکپارچه سازی و تمیز کردن داده ها در لایه نقره ای Data integration and cleaning in the Silver layer

  • یک مدل داده بسازید و داده ها را در لایه Silver یکپارچه کنید Build a data model and integrate data in the Silver layer

  • SCD2 را در لایه نقره ای پیاده سازی کنید Implement SCD2 in the silver layer

  • تولید شناسه های منحصر به فرد و نوشتن داده ها در جداول دلتا Generating unique IDs and write data to delta tables

  • الزامات تجاری برای لایه طلا Business requirements for the Gold layer

  • تجزیه و تحلیل را در لایه طلایی برای ایجاد گزارش های تجاری انجام دهید Perform analytics in the Gold layer to build business reports

  • استفاده از زیرگراف ها برای قابلیت استفاده مجدد برای ساده سازی خطوط لوله Using subgraphs for reusability to simplify Pipelines

  • خلاصه ای از آنچه در این ماژول آموخته ایم A summary of what we've learned in this module

  • لایه نقره ای را با ادغام داده ها از لایه برنز بسازید Build the silver layer by Integrating data from the Bronze layer

  • گزارش کسب و کار را در لایه طلا بسازید Build business report in the Gold layer

استقرار خطوط لوله برای تولید Deploying Pipelines to production

  • نمای کلی استقرار خط لوله Pipeline deployment overview

  • راه هایی برای هماهنگ کردن گردش کار برای خودکارسازی مشاغل Ways to orchestrate workflows to automate jobs

  • Pipeline افزایشی را برای آماده شدن برای اجرای برنامه ریزی شده پیکربندی کنید Configure incremental Pipeline to prepare for scheduled runs

  • برای اجرای روزانه خطوط لوله، یک شغل پیشگویی ایجاد کنید Create a Prophecy Job to schedule the Pipelines to run daily

  • CI/CD چیست و چگونه Pipelines را برای تولید مستقر کنیم What is CI/CD and how to deploy Pipelines to production

  • موارد استفاده پیشرفته: ادغام با فرآیند CI/CD خارجی با استفاده از PBT Advanced use cases: integrate with external CI/CD process using PBT

  • خلاصه ای از آنچه در این ماژول آموخته ایم A summary of what we've learned in this module

  • برای اجرای روزانه خط لوله لایه نقره ای بازاریابی برنامه ریزی کنید Schedule marketing silver layer Pipeline to run daily

مدیریت نسخه ها و کنترل تغییر Managing versions and change control

  • مدیریت نسخه و نمای کلی کنترل تغییر Version management and change control overview

  • پروژه های Prophecy و فرآیند git Prophecy Projects and the git process

  • همکاری در خط لوله - گرفتن شاخه توسعه دهنده به شاخه اصلی Collaborating on a Pipeline - catching dev branch to the main branch

  • برگرداندن تغییرات هنگام توسعه خط لوله قبل از انجام Reverting changes when developing a Pipeline before committing

  • بازگشت به commit قبلی پس از انجام با استفاده از rollback Reverting back to a prior commit after committing by using rollback

  • ادغام تغییرات و جابجایی بین شاخه ها Merging changes and switching between branches

  • حل تضاد کد با چندین عضو تیم باعث ایجاد تعهد می شود Resolving code conflicts with multiple team members are making commits

  • شبیه سازی یک پروژه پیشگویی در حال خروج در یک مخزن جدید Cloning an exiting Prophecy Project to a new repository

  • استفاده مجدد از یک پروژه نبوت موجود با وارد کردن پروژه Reusing an existing Prophecy Project by importing the Project

  • ایجاد درخواست‌های کشش و مدیریت درگیری‌های commit Creating pull requests and handling commit conflicts

  • خلاصه ای از آنچه در این ماژول آموخته ایم A summary of what we've learned in this module

  • پروژه دوره را در مخزن خود کلون کنید Clone the course Project to your own repo

قابلیت استفاده مجدد و توسعه پذیری Reusability and extensibility

  • مروری بر قابلیت استفاده مجدد و توسعه پذیری Reusability and extensibility overview

  • اهمیت تنظیم استانداردهای مهندسی داده - استفاده مجدد و گسترش The importance of setting data engineering standards - reuse and extend

  • یک اسکریپت را برای اشتراک گذاری و استفاده مجدد به Gem سفارشی تبدیل کنید Convert a script to a customized Gem to share and reuse

  • با استفاده از اکسپرس مشخص شده یک Gem جدید برای مکعب چند بعدی ایجاد کنید Create a new Gem for multi-dimensional cube using the specified express

  • یک UI برای cube Gem ایجاد کنید تا کاربران مکعب را تعریف کنند Create an UI for the cube Gem for users to define the cube

  • افزودن ویژگی‌های اضافی برای بصری کردن رابط کاربری Gem UI سفارشی Adding additional features to make the customized Gem UI intuitive

  • رسیدگی به خطا با افزودن اعتبارسنجی و پیام های خطای سفارشی شده Error handling with adding validations and customized error messages

  • آزمایش Gem مکعب سفارشی و انتشار Gem برای به اشتراک گذاشتن با دیگران Testing customized cube Gem and publishing the Gem to share with others

  • اختصاص دسترسی مناسب برای اشتراک گذاری Gem مکعبی جدید Assigning proper access to share the newly built cube Gem

  • با افزودن یک وابستگی به آن، از Gem مکعبی تازه ایجاد شده استفاده کنید Use the newly created cube Gem by adding it a dependency

  • خلاصه ای از آنچه در این ماژول آموخته ایم A summary of what we've learned in this module

  • Gem سفارشی خود را ایجاد کنید Create your own custom Gem

تست داده ها Data testing

  • بررسی اجمالی کیفیت داده و آزمایش واحد Data quality and unit testing overview

  • معماری مدالیون و کیفیت داده ها Medallion architecture and data quality

  • بررسی خط لوله کیفیت داده - نحوه پر کردن گزارش کیفیت داده Data quality Pipeline walkthrough - how to populate data quality log

  • کیفیت داده لایه نقره ای را بررسی می کند، خطاها را تعریف می کند و در جدول دلتا می نویسد Silver layer data quality checks, define errors, and write to delta table

  • بررسی کیفیت یکپارچه‌سازی داده‌ها با اتصال - بررسی کنید آیا شناسه‌های مشتری وجود ندارد Data integration quality checks with joins - check if customer IDs are missing

  • انجام بررسی‌های تطبیق داده‌ها - مقادیر ستون‌های ناهماهنگ را شناسایی کنید Performing data reconciliation checks - identify mismatching column values

  • شناسایی و ردیابی مسائل مربوط به کیفیت داده ها با حفاری در یک شناسه خاص Identifying and tracking data quality issues by drilling down to a specific ID

  • اجرای بررسی‌های کیفیت داده‌ها در مرحله - در صورت وجود خطا، خط لوله را متوقف کنید Executing data quality checks in phases - stop the pipeline if error exists

  • گزینه های تست واحد - آزمایش عبارات با استفاده از برابری خروجی Unit testing options - testing expressions using output equality

  • نمای کد تست واحد را کاوش کنید Explore code view of the unit test

  • اجرای تست های واحد Running the unit tests

  • عبارات آزمایش واحد با استفاده از محمولات خروجی Unit testing expressions using output predicates

  • خلاصه ای از آنچه در این ماژول آموخته ایم A summary of what we've learned in this module

  • بررسی کیفیت داده های بازاریابی Marketing data quality check

نظارت و مشاهده Monitoring and observability

  • بررسی اجمالی نظارت و مشاهده Monitoring and observability overview

  • مقدمه‌ای بر فراداده‌های Prophecy و معیارهای اجرا Introduction to Prophecy's metadata and execution metrics

  • یک تور سریع از رابط کاربری فراداده Prophecy A quick tour of Prophecy metadata user interface

  • دسترسی و مقایسه آمار و اجراهای تاریخی خط لوله Accessing and comparing Pipeline historical runs and statistics

  • فراداده مجموعه داده: فراداده را استنتاج کنید و از طریق خط لوله انتشار دهید Dataset metadata: infer metadata Databricks and propagate through the Pipeline

  • مشاغل را مشاهده کنید و تاریخچه را اجرا کنید Observe jobs and run history

  • مقدمه ای بر اصل و نسب داده Introduction to data lineage

  • ردیابی و نظارت بر تغییرات داده ها با استفاده از خط داده Track and monitor data changes using data lineage

  • خلاصه ای از آنچه در این ماژول آموخته ایم A summary of what we've learned in this module

بهترین شیوه های پیشگویی و مهندسی داده های عمومی Prophecy and general data engineering best practices

  • مروری بر بهترین شیوه ها Best practices overview

  • بهترین روش‌های Git - از تداخل کد قبل از وقوع اجتناب کنید Git best practices - avoid code conflicts before it happens

  • بهترین شیوه های مهندسی داده های عمومی و خلاصه ای از آنچه آموخته ایم General data engineering best practices and a summary of what we've learned

از حضور شما در Prophecy for Data Engineering سپاسگزاریم Thank you for attending Prophecy for Data Engineering

  • آنچه را که در این دوره آموخته ایم خلاصه کنید و از شما متشکرم! Summarize what we've learned in this course and thank you!

نمایش نظرات

آموزش Prophecy for Data Engineering: Low-code Transformation Data
جزییات دوره
5 hours
113
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
352
4.8 از 5
ندارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Mei Long Mei Long

عضو موسس، Product at Prophecy

Richard Marcus Richard Marcus

Anya Bida Anya Bida

مشارکت کننده محصول، Prophecy.io

Maciej Szpakowski Maciej Szpakowski

یکی از بنیانگذاران و CTO @ Prophecy