آموزش Azure Data Factory Essentials

Azure Data Factory Essentials Training

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:

TL;DR.

این دوره به معرفی Azure Data Factory و چگونگی کمک به پردازش دسته ای داده ها می پردازد. دانش‌آموزان با فعالیت‌های عملی، آزمون‌ها و یک پروژه یاد می‌گیرند که چگونه می‌توان از Data Factory برای ادغام بسیاری از فناوری‌های دیگر با یکدیگر برای ایجاد یک راه‌حل کامل ETL، از جمله خط لوله CI/CD در Azure DevOps استفاده کرد. برخی از مباحث مربوط به Data Factory مورد نیاز برای آزمون DP-203: مهندسی داده در Microsoft Azure در این دوره پوشش داده شده است.

توضیحات

Azure Data Factory یک سرویس ETL (استخراج، تبدیل، و بارگیری) بدون سرور مبتنی بر ابر است. این یک رابط کاربری بصری بدون کد برای نوشتن، هماهنگ‌سازی و نظارت بر گردش‌های کاری مبتنی بر داده ارائه می‌دهد. با بیش از ۸۰ کانکتور خارج از جعبه، می‌توانید خطوط لوله پیچیده بسازید که منابع محاسباتی مانند Mapping Data Flow، HDInsight Hadoop، Databricks، Azure Machine Learning، و Azure SQL Database را به‌طور بومی با یکدیگر ادغام می‌کنند.

با انجام دادن بیاموزید

من و شما با هم هر آنچه را که باید در مورد استفاده از Microsoft Azure Data Factory بدانید را یاد می گیریم. این دوره شما را با فعالیت‌های یادگیری عملی، ویدئوها و آزمون‌ها آماده می‌کند تا به شما در کسب دانش و تجربه عملی در ادامه راه کمک کند.

در پایان این دوره، دانش‌آموزان این فرصت را خواهند داشت که پروژه‌ای ارائه کنند که به آنها کمک می‌کند تا بفهمند ADF چگونه کار می‌کند، چه اجزایی دارد و چگونه ADF و Databricks را یکپارچه کنند.

کلیدهای دانش آموز:

  • دانش‌آموز باید بداند که چگونه ADF ویژگی‌های سایر فناوری‌ها را برای تبدیل یا تجزیه و تحلیل داده‌ها هماهنگ می‌کند.
  • دانش آموز باید بتواند اجزای سازنده ADF را توضیح دهد و از آنها استفاده کند.
  • دانش آموز باید بتواند دو یا چند فناوری را با استفاده از ADF ادغام کند.
  • دانش آموز باید بتواند با اطمینان خطوط لوله مبتنی بر داده های پیچیده متوسط ​​ایجاد کند
  • دانش‌آموز باید بتواند یک خط لوله CI/CD در Azure DevOps برای استقرار خطوط لوله Data Factory ایجاد کند

این دوره برای چه کسانی است:

  • متخصصان داده
  • معماران داده
  • متخصصان هوش تجاری
  • مهندسان داده
  • توسعه دهندگان ETL
  • توسعه دهندگان نرم افزار

آنچه خواهید آموخت:

  • مقدمه ای بر Azure Data Factory. متوجه خواهید شد که چگونه می توان از آن برای ادغام بسیاری از فناوری های دیگر با لیستی از اتصالات در حال رشد استفاده کرد.
  • چگونه با استفاده از پورتال Azure و PowerShell یک Data Factory را از ابتدا راه اندازی کنیم.
  • فعالیت ها و مؤلفه هایی که Data Factory را تشکیل می دهند. این شامل خطوط لوله، مجموعه داده‌ها، محرک‌ها، سرویس‌های پیوندی و موارد دیگر می‌شود.
  • نحوه تبدیل، جذب و ادغام داده بدون کد با استفاده از Mapping Data Flows .
  • نحوه ادغام Azure Data Factory و Databricks. نحوه احراز هویت و اجرای چند نوت بوک از داخل ADF را توضیح خواهیم داد.
  • استقرار Azure Data Factory با استفاده از Azure DevOps برای یکپارچه سازی مداوم و استقرار مداوم (CI/CD)

آموزش ملزومات کارخانه داده - طرح کلی

  1. مقدمه
  2. معرفی ماژول ها
    1. شروع به کار
    2. اجزای کارخانه داده Azure را درک کنید
    3. بلع و تبدیل داده با Azure Data Factory
    4. Azure Data Factory را با Databricks ادغام کنید
    5. یکپارچه سازی مداوم و تحویل مداوم (CI/CD) برای کارخانه داده Azure
  3. شروع به کار
    1. برای حساب رایگان Azure خود ثبت نام کنید
    2. تنظیم بودجه
    3. نحوه راه اندازی Azure Data Factory
      1. پورتال لاجورد
      2. PowerShell
  4. اجزای کارخانه داده Azure
    1. خدمات مرتبط
    2. خطوط لوله
    3. مجموعه داده ها
    4. فعالیتهای کارخانه داده
    5. پارامترها
      1. پارامترهای خط لوله
      2. پارامترهای فعالیت
      3. پارامترهای جهانی
    6. محرک ها
    7. زمان اجرا یکپارچه (IR)
      1. Azure IR
      2. IR خود میزبان
      3. IR متصل به خود میزبان
      4. Azure-SSIS IR
    8. امتحان
  5. بلع و تبدیل داده ها
    1. مصرف داده با استفاده از Copy Activity در Data Lake Store Gen2
      1. نحوه کپی کردن فایل‌های پارکت از AWS S3 در پایگاه داده Azure SQL
        1. ایجاد سرویس پیوندی ADF برای پایگاه داده Azure SQL
        2. نحوه اعطای مجوز به Azure SQL DB به Data Factory Managed Identity
        3. وارد کردن فایل پارکت از S3 به پایگاه داده Azure SQL
      2. کپی فایل های پارکت از AWS S3 در پایگاه داده Data Lake و Azure SQL (مقدمه)
        1. فایل‌های پارکت را از AWS S3 در پایگاه داده Data Lake و Azure SQL کپی کنید
      3. نظارت بر اجرای خط لوله ADF
    2. تبدیل داده ها با Mapping Data Flow
      1. مسیریابی جریان داده نقشه برداری
      2. تبدیل‌ها را در Mapping Data Flow شناسایی کنید
        1. چند ورودی/خروجی
        2. اصلاح کننده طرحواره
        3. قالب‌ها
        4. اصلاح کننده ردیف
        5. مقصد
      3. افزودن منبع به جریان داده های نقشه برداری
        1. تعریف نوع منبع. مجموعه داده در مقابل Inline
        2. تعریف گزینه های منبع
        3. خوشه جرقه جریان داده در حال چرخش
        4. تعریف نوع ورودی منبع داده
        5. تعریف طرحواره داده
        6. بهینه سازی بارها با پارتیشن ها
        7. پیش نمایش داده از تبدیل منبع
      4. نحوه افزودن یک سینک به جریان داده های نقشه برداری
      5. نحوه اجرای یک جریان داده نقشه برداری
    3. امتحان
  6. Azure Data Factory را با Databricks یکپارچه کنید
    1. اجرای پروژه
    2. نحوه ایجاد Azure Databricks و واردات نوت بوک
    3. نحوه انتقال داده با استفاده از Databricks و Data Factory
    4. اعتبار سنجی انتقال داده در Databricks و Data Factory
    5. نحوه استفاده از ADF برای هماهنگ کردن تبدیل داده با استفاده از یک دفترچه یادداشت بریکس
    6. امتحان
  7. یکپارچه سازی مداوم و تحویل مداوم (CI/CD) برای کارخانه داده Azure
    1. نحوه ایجاد یک سازمان و پروژه Azure DevOps
    2. نحوه ایجاد یک مخزن Git در Azure DevOps
    3. نحوه پیوند Data Factory به Azure DevOps Repository
    4. نحوه نسخه Azure Data Factory با شاخه ها
      1. گردش کار انتشار کارخانه داده
      2. ادغام کد کارخانه داده در شعبه همکاری
    5. نحوه ایجاد خط لوله CI/CD برای Data Factory در Azure DevOps
      1. نحوه ایجاد خط لوله CICD برای Data Factory در Azure DevOps
      2. نحوه اجرای یک خط لوله انتشار در Azure DevOps برای ADF
    6. امتحان

Azure Data Factory را با Databricks ادغام کنید

تصور کنید شما بخشی از یک تیم تحلیلی هستید که اخیراً یک تکلیف بزرگ برای تجزیه و تحلیل داده های جرم و جنایت از چندین شهر بزرگ دریافت کرده است. مجموعه داده ای که دریافت کردید دارای اطلاعات جزئی جرم برای شهرهای بزرگ است. با این حال، هر مجموعه داده به صورت متفاوتی قالب بندی و ساختار یافته است و در فروشگاه های داده مختلف ذخیره می شود. هر شهر از دسته بندی و اصطلاحات متفاوتی برای نوع مشابهی از داده ها استفاده می کند. تیم شما مسئول تجزیه و تحلیل همه مجموعه داده ها و گزارش تعداد مجموع جرایم در هر ماه در هر شهر است.

تیم شما تصمیم گرفته است از قابلیت‌های Azure Data Factory و Azure Databricks برای جذب، تبدیل و جمع‌آوری داده‌های مورد نیاز استفاده کند

  • در این ماژول، شما:
    • از ADF برای هماهنگ کردن تبدیل داده ها با استفاده از فعالیت Databricks Notebook استفاده کنید.

1.      ADF و Azure Databricks

            می‌توانید از Azure Data Factory برای دریافت داده‌های خام جمع‌آوری‌شده از منابع مختلف استفاده کنید و با Azure Databricks کار کنید تا آن‌ها را مطابق با نیاز خود بازسازی کنید. ادغام Azure Dataricks با ADF به شما این امکان را می دهد که نوت بوک های Databricks را در یک خط لوله ADF اضافه کنید تا از قابلیت های تحلیلی و تبدیل داده Databricks استفاده کنید. می توانید یک نوت بوک را در گردش کار داده خود اضافه کنید تا داده های خام بارگذاری شده به ADF از منابع مختلف را ساختار داده و تبدیل کنید. هنگامی که داده ها با استفاده از Databricks تبدیل شدند، می توانید آن را در هر منبع انبار داده بارگیری کنید.

الزامات

دریافت و تبدیل داده ها با استفاده از قابلیت های جمعی ADF و Azure Databricks اساساً شامل مراحل زیر است:

  1. ایجاد حساب ذخیره سازی Azure - اولین قدم ایجاد یک حساب ذخیره سازی Azure برای ذخیره داده های دریافت شده و تبدیل شده شما است.
  2. یک کارخانه داده Azure ایجاد کنید - هنگامی که حساب ذخیره سازی خود را تنظیم کردید، باید کارخانه داده Azure خود را با استفاده از پورتال Azure ایجاد کنید.
  3. ایجاد خط لوله گردش کار داده - پس از راه‌اندازی فضای ذخیره‌سازی و ADF، با ایجاد خط لوله شروع می‌کنید، جایی که اولین گام این است که داده‌ها را از منبع خود با استفاده از فعالیت کپی ADF کپی کنید. Copy Activity به شما امکان می دهد داده ها را از منابع مختلف داخلی و ابری کپی کنید.
  4. افزودن نوت بوک Databricks به خط لوله - هنگامی که داده های شما در ADF کپی شد، دفترچه یادداشت Databricks خود را پس از فعالیت کپی به خط لوله اضافه می کنید. این نوت بوک ممکن است حاوی دستور و کد برای تبدیل و پاکسازی داده های خام در صورت لزوم باشد.
  5. تجزیه و تحلیل را روی داده ها انجام دهید - اکنون که داده های شما پاک شده و در قالب مورد نیاز ساختار یافته است، می توانید از دفترچه یادداشت Databricks برای آموزش بیشتر یا تجزیه و تحلیل آنها برای خروجی نتایج مورد نیاز استفاده کنید.

2.      ایجاد حساب ذخیره‌سازی Azure

  1. در پورتال Azure، "ایجاد منبع" را انتخاب کنید، "حساب ذخیره سازی" را در کادر Search the Marketplace وارد کنید و Storage account - blob, file, table, queue را از نتایج انتخاب کنید و Create را انتخاب کنید.
  2. در تیغه ایجاد حساب ذخیره سازی، موارد زیر را وارد کنید:
  •        اشتراک: اشتراکی را که برای این ماژول استفاده می کنید انتخاب کنید.
  •        گروه منبع: «ایجاد جدید» را انتخاب کنید و یک نام منحصر به فرد وارد کنید.
  •        نام حساب ذخیره‌سازی: یک نام منحصربه‌فرد وارد کنید (مطمئن شوید که کادر انتخاب سبز رنگ را می‌بینید).
  •        موقعیت مکانی: نزدیکترین مکان به مکان فیزیکی خود را انتخاب کنید.
  •        عملکرد: استاندارد را انتخاب کنید.
  •        نوع حساب: فضای ذخیره‌سازی (جهت عمومی نسخه 1) را انتخاب کنید.
  •        Replication: Locally redundant storage (LRS) را انتخاب کنید.
  1. بعدی: پیشرفته را انتخاب کنید.
  2. در تب Advanced موارد زیر را انتخاب کنید:
    1. انتقال ایمن مورد نیاز است: غیرفعال را انتخاب کنید
    2. شبکه مجازی: هیچکدام را انتخاب کنید
  3. بررسی + ایجاد را انتخاب کنید.
  4. در برگه بررسی، ایجاد را انتخاب کنید.

 2.1. نام حساب و کلید

را دریافت کنید
  1. پس از تهیه، به حساب ذخیره سازی خود بروید.
  2. کلیدهای دسترسی را از منوی سمت چپ انتخاب کنید و نام حساب ذخیره سازی و مقدار key1 Key را در یک ویرایشگر متن، مانند Notepad، برای استفاده بعدی کپی کنید.

2.2. نام حساب و کلید

را دریافت کنید
  1. Blobs را از منوی سمت چپ انتخاب کنید، سپس + container را برای ایجاد یک ظرف جدید انتخاب کنید.
  2. dwtemp را برای نام ظرف وارد کنید.
  3. سطح دسترسی عمومی را به عنوان خصوصی انتخاب کنید
  4. OK را انتخاب کنید.

شما حساب ذخیره سازی و Azure Data Factory خود را آماده و راه اندازی کرده اید، اکنون زمان آن است که به فضای کاری Databricks خود بروید تا بقیه گردش کار را تکمیل کنید. ما از یک مجموعه داده نمونه برای ایجاد خط لوله ADF استفاده می کنیم و از نوت بوک های نمونه برای تبدیل و تجزیه و تحلیل داده ها استفاده می کنیم.

3.      یک فضای کاری Azure Databricks ایجاد کنید

  1. در پورتال Azure، "ایجاد منبع" را انتخاب کنید، "Databricks" را در کادر Search the Marketplace وارد کنید و Storage account - blob, file, table, queue را از نتایج انتخاب کنید و Create را انتخاب کنید.

 

3.1. آرشیو Databricks

را کلون کنید
  1. از پورتال Azure، به فضای کاری Azure Databricks خود بروید و Launch Workspace را انتخاب کنید.
  2. در Workspace، با استفاده از نوار فرمان در سمت چپ، Workspace، Users را انتخاب کنید و نام کاربری خود را انتخاب کنید (ورودی با نماد خانه).
  3. در تیغه‌ای که ظاهر می‌شود، شورون رو به پایین در کنار نام خود را انتخاب کنید و Import را انتخاب کنید.
  4. در گفتگوی Import Notebooks، URL را انتخاب کرده و در URL زیر جای‌گذاری کنید:
  5. وارد کردن را انتخاب کنید.
  6. پوشه ای به نام آرشیو باید ظاهر شود. آن پوشه را انتخاب کنید.
  7. پوشه حاوی یک یا چند دفترچه است که برای تکمیل این آزمایشگاه از آنها استفاده خواهید کرد.



نوت بوک های زیر را تکمیل کنید

  1. 01 شروع به کار - این نوت بوک حاوی دستورالعمل هایی برای راه اندازی حساب ذخیره سازی و Azure Data Factory (ADF) است. اگر قبلاً حساب ذخیره‌سازی خود را در واحد قبلی تنظیم کرده‌اید، می‌توانید از این دفترچه رد شوید.
  2. 02 انتقال داده - در این نوت بوک شما یک خط لوله ADF v2 ایجاد می کنید تا داده ها را از یک مجموعه داده عمومی به حساب Azure Storage خود وارد کنید. هنگامی که داده ها جذب شدند، از تابع Notebook Databricks برای بررسی داده ها استفاده می کنید.
  3. 03 Data Transformation - این نوت بوک حاوی دستورالعمل هایی برای ایجاد اتصال بین Azure Data Factory و فضای کاری Databricks است. شما از یک نوت بوک نمونه برای افزودن به خط لوله ADF خود استفاده می کنید که داده های شما را تغییر داده و بازسازی می کند. همچنین برای ایجاد گزارش های مورد نیاز، مقداری تجمیع اولیه را روی مجموعه داده نمونه انجام خواهید داد.

سرفصل ها و درس ها

درس ها Lessons

  • نحوه راه اندازی Azure Data Factory با استفاده از Azure Portal How setup Azure Data Factory using Azure Portal

  • نظارت بر اجرای خط لوله ADF Monitoring ADF Pipeline Execution

  • ایجاد سرویس پیوندی ADF برای پایگاه داده Azure SQL Creating ADF Linked Service for Azure SQL Database

  • اجزای ADF - زمان اجرا یکپارچه سازی Azure-SSIS ADF Components - Azure-SSIS Integration Runtime

  • اجزای ADF - مجموعه داده ها ADF Components - Datasets

  • بلع و تبدیل داده ها با Azure Data Factory Ingesting and Transforming Data with Azure Data Factory

  • نحوه استفاده از ADF برای هماهنگ سازی تبدیل داده ها با استفاده از یک دفترچه یادداشت بریکس How to Use ADF to Orchestrate Data Transformation Using a Databricks Notebook

  • DevOps - نحوه ایجاد یک سازمان و پروژه Azure DevOps DevOps - How to Create an Azure DevOps Organization and Project

  • نحوه وارد کردن داده ها با استفاده از Copy Activity در Azure Data Lake Gen2 How to Ingest Data using Copy Activity into Azure Data Lake Gen2

  • چگونه یک سینک را به جریان داده های نقشه برداری اضافه کنیم How to add a Sink to a Mapping Data Flow

  • DevOps - نحوه ایجاد یک مخزن Git در Azure DevOps DevOps - How to Create a Git Repository in Azure DevOps

  • نگاشت گردش داده ها Mapping Data Flow Walk-through

  • مسابقه - ماژول 6 Quiz - Module 6

  • نحوه راه اندازی Azure Data Factory با استفاده از PowerShell How setup Azure Data Factory using PowerShell

  • پیش نمایش داده از تبدیل منبع Data Preview from Source Transformation

  • نگاشت تحولات جریان داده - چند ورودی/خروجی Mapping Data Flows Transformations - Multiple Inputs/Outputs

  • نگاشت تحولات جریان داده - فرمت کننده ها Mapping Data Flows Transformations - Formatters

  • کامپوننت های Azure Data Factory را درک کنید Understand Azure Data Factory Components

  • DevOps - نحوه نسخه Azure Data Factory با شاخه ها DevOps - How to version Azure Data Factory with Branches

  • بسته شدن Wrap-up

  • DevOps - نحوه ایجاد خط لوله CICD برای Data Factory در Azure DevOps DevOps - How to Create a CICD pipeline for Data Factory in Azure DevOps

  • اجزای ADF - پارامترهای فعالیت ADF Components - Activity Parameters

  • نحوه ایجاد Databricks Azure و واردات نوت بوک How to Create Azure Databricks and Import Notebooks

  • نحوه اعطای مجوزهای Azure SQL DB به Data Factory Managed Identity How to Grant Permissions on Azure SQL DB to Data Factory Managed Identity

  • تعریف نوع منبع؛ مجموعه داده در مقابل Inline Defining Source Type; Dataset vs Inline

  • تعریف طرحواره داده Defining Data Schema

  • نگاشت تحولات جریان داده - اصلاح کننده ردیف Mapping Data Flows Transformations - Row Modifier

  • فایل های پارکت را از AWS S3 در پایگاه داده Data Lake و Azure SQL کپی کنید Copy Parquet Files from AWS S3 into Data Lake and Azure SQL Database

  • معرفی Introduction

  • تعریف نوع ورودی منبع داده Defining Data Source Input Type

  • یکپارچه سازی مداوم و تحویل مداوم (CI/CD) برای کارخانه داده Azure Continuous Integration and Continuous Delivery (CI/CD) for Azure Data Factory

  • 5 نقشه‌برداری از تحولات جریان داده - مقصد 5Mapping Data Flows Transformations - Destination

  • DevOps - نحوه اجرای یک خط لوله در Azure DevOps برای ADF DevOps - How to Execute a Release Pipeline in Azure DevOps for ADF

  • اجزای ADF - خدمات مرتبط ADF Components - Linked Services

  • DevOps - نحوه پیوند Data Factory به Azure DevOps Repository DevOps - How to Link Data Factory to Azure DevOps Repository

  • شروع شدن Getting Started

  • اجزای ADF - فعالیت ها ADF Components - Activities

  • بهینه سازی بارها با پارتیشن ها Optimizing Loads with Partitions

  • اعتبار سنجی انتقال داده در Databricks و Data Factory Validating Data Transfer in Databricks and Data Factory

  • 4.5.3 اجزای ADF - پارامترهای جهانی 4.5.3 ADF Components - Global Parameters

  • مسابقه - ماژول 7 Quiz - Module 7

  • اجزای ADF - خطوط لوله ADF Components - Pipelines

  • چرخش تا خوشه جرقه جریان داده Spinning Up Data Flow Spark Cluster

  • Azure Data Factory را با Databricks ادغام کنید Integrate Azure Data Factory with Databricks

  • اجزای ADF - زمان اجرا یکپارچه سازی Azure ADF Components - Azure Integration Runtime

  • اجزای ADF - پارامترهای خط لوله ADF Components - Pipeline Parameters

  • نحوه اعطای مجوزهای Azure SQL DB به Data Factory Managed Identity How to Grant Permissions on Azure SQL DB to Data Factory Managed Identity

  • نحوه ایجاد Databricks Azure و واردات نوت بوک How to Create Azure Databricks and Import Notebooks

  • اجزای ADF - زمان اجرا یکپارچه سازی خود میزبانی مرتبط ADF Components - Linked Self-Hosted Integration Runtime

  • Project Walkthrough - یکپارچه سازی Azure Data Factory با Databricks Project Walkthrough - Integrating Azure Data Factory with Databricks

  • اجزای ADF - تریگرها ADF Components - Triggers

  • نگاشت تحولات جریان داده - اصلاح کننده طرحواره Mapping Data Flows Transformations - Schema Modifier

  • نحوه کپی کردن فایل های پارکت از AWS S3 در پایگاه داده Azure SQL How to Copy Parquet Files from AWS S3 to Azure SQL Database

  • مسابقه - ماژول 3 Quiz - Module 3

  • برای حساب رایگان Azure خود ثبت نام کنید Sign up for your Azure free account

  • تعریف گزینه های منبع Defining Source Options

  • DevOps - ادغام کد کارخانه داده در شعبه همکاری DevOps - Merging Data Factory Code to Collaboration Branch

  • اجزای ADF - زمان اجرا یکپارچه سازی خود میزبانی شده ADF Components - Self-Hosted Integration Runtime

  • نحوه اجرای یک جریان داده نقشه برداری How to Execute a Mapping Data Flow

  • تنظیم بودجه Setting up a Budget

  • مسابقه - ماژول 5 Quiz - Module 5

نمایش نظرات

آموزش Azure Data Factory Essentials
جزییات دوره
3h 39m
61
Skillshare (اسکیل شیر) Skillshare (اسکیل شیر)
(آخرین آپدیت)
168
3 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar