نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره:
در این دوره ، شما با پلت فرم Azure Databricks مبتنی بر Spark آشنا خواهید شد. شما خواهید دید که چگونه مدل پردازش جریان جرقه ای کار می کند و سپس از آن برای ساخت خط تولید جریان آماده تولید پایان به پایان در پلت فرم Azure Databricks استفاده می کنید. خطوط لوله داده مدرن اغلب شامل داده های جریان دار هستند که باید به صورت بلادرنگ پردازش شوند. در حالی که Apache Spark برای پردازش داده های بزرگ بسیار محبوب است و می تواند به ما در ساخت خطوط لوله قابل اطمینان کمک کند ، اما مدیریت محیط Spark بدون هیچ گونه پیاده روی است. در این دوره ، مفهوم سازی مدل پردازش برای Azure Databricks Service ، شما می آموزید که چگونه از Spark Streaming Streaming در پلتفرم Databricks که در Microsoft Azure در حال اجرا است ، استفاده کنید و از ویژگی های آن برای ساخت سریع و قابل اعتماد یک خط لوله جریان به پایان استفاده کنید. . و همه اینها در حالی است که در مورد گزینه های همکاری و بهینه سازی هایی که به همراه دارد ، اطلاعاتی کسب می کنیم ، اما بدون نگرانی در مورد مدیریت زیرساخت ها. ابتدا با مدل پردازش Spark Structured Streaming ، با پلتفرم و ویژگی های Databricks و نحوه اجرای آن در Microsoft Azure آشنا خواهید شد. در مرحله بعدی ، نحوه تنظیم محیط مانند فضای کاری ، خوشه ها و امنیت را مشاهده خواهید کرد. منابع جریان و سینک ها را پیکربندی کنید و ببینید نحوه تحمل خطا در جریان سازی ساختار یافته چگونه کار می کند. به دنبال آن ، شما می آموزید که چگونه هر فاز از خط لوله جریان را بسازید ، با استخراج داده ها از منبع ، تبدیل آنها و بارگیری آنها در یک ظرفشویی. و سپس تولید آن را آماده کرده و با استفاده از مشاغل Databricks اجرا کنید. همچنین می بینید که چگونه خوشه را با استفاده از اسکریپت های اولیه و ظروف Docker ، متناسب با نیازهای تجاری خود سفارشی کنید. سرانجام ، جنبه های دیگر را کشف خواهید کرد. خواهید دید که حجم کار مختلف موجود چیست و قیمت گذاری چگونه کار می کند. ما همچنین در مورد بهترین روش ها ، از نظر توسعه ، عملکرد ، ثبات و هزینه صحبت خواهیم کرد. و در آخر ، خواهید دید که چگونه Spark Streamed Streaming در Azure Databricks با سایر خدمات مدیریت شده مانند Flink on AWS ، Azure Stream Analytics ، Beam on Google Cloud و غیره مقایسه می شود. در پایان این دوره ، شما مهارت و دانش Azure را خواهید داشت پلتفرم Databricks برای ساخت یک خط لوله جریان به پایان از طریق استفاده از جریان Spark Structured مورد نیاز است.
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
-
بررسی اجمالی دوره
Course Overview
شروع با جریان ساختاری در Azure Databricks
Getting Started with Structured Streaming on Azure Databricks
-
بررسی اجمالی ماژول
Module Overview
-
طرح کلی دوره
Course Outline
-
خطوط داده مدرن در پایگاه داده
Modern Data Pipelines on Databricks
-
جرقه 101
Spark 101
-
مدل پردازش جریان ساختاری
Structured Streaming Processing Model
-
دیتابریک چیست؟
What Is Databricks?
-
Azure Databricks چیست؟
What Is Azure Databricks?
-
خلاصه
Summary
تنظیم محیط Databricks
Setting up Databricks Environment
-
بررسی اجمالی ماژول
Module Overview
-
تنظیم فضای کاری
Setting up Workspace
-
ایجاد خوشه
Creating Cluster
-
درک استخرهای خوشه ای و خودکارسازی
Understanding Cluster Pools and Autoscaling
-
کار با نوت بوک
Working with Notebook
-
پیکربندی امنیت
Configuring Security
-
سناریو Walkthrough
Scenario Walkthrough
-
خلاصه
Summary
پیکربندی فروشگاه های منبع و سینک
Configuring Source and Sink Stores
-
بررسی اجمالی ماژول
Module Overview
-
سازه جریان تحمل خطا
Structured Streaming Fault Tolerance
-
گزینه های منبع و سینک
Source and Sink Options
-
Azure Event Hub ها را راه اندازی کنید و مختصات Maven را دریافت کنید
Setup Azure Event Hubs and Get Maven Coordinates
-
منبع: پیکربندی Azure Event Hub ها با استفاده از کتابخانه های Databricks
Source: Configure Azure Event Hubs Using Databricks Libraries
-
سینک: Mount Azure Storage Services to DBFS
Sink: Mount Azure Storage Services to DBFS
-
برنامه نمونه را برای ارسال رویدادهای تاکسی NYC راه اندازی کنید
Setup Sample App to Send NYC Taxi Events
-
خلاصه
Summary
ساخت خط لوله جریان با استفاده از جریان ساختار یافته
Building Streaming Pipeline Using Structured Streaming
-
بررسی اجمالی ماژول
Module Overview
-
استخراج و پردازش داده های منبع
Extract and Process Source Data
-
بارگذاری داده ها در پرونده ها
Load Data to Files
-
کار با Spark SQL و تجسم داده ها
Working with Spark SQL and Visualizing Data
-
خلاصه
Summary
آماده سازی تولید خط لوله جریان مستقیم
Making Streaming Pipeline Production Ready
-
بررسی اجمالی ماژول
Module Overview
-
خط لوله جریان را پارامتر کنید
Parameterize Streaming Pipeline
-
برنامه ریزی با مشاغل Databricks
Scheduling with Databricks Jobs
-
بهترین روش ها
Best Practices
-
خلاصه
Summary
درک قیمت گذاری ، حجم کار و رقابت
Understanding Pricing, Workloads, and Competition
-
بررسی اجمالی ماژول
Module Overview
-
بارهای کاری ، ردیف ها و قیمت گذاری
Workloads, Tiers, and Pricing
-
مقایسه با سایر سرویس های جریانی
Comparison with Other Streaming Services
-
خلاصه
Summary
سفارشی کردن خوشه
Customizing the Cluster
-
بررسی اجمالی ماژول
Module Overview
-
کار با اسکریپت های اولیه
Working with Initialization Scripts
-
خدمات کانتینر Databricks را درک کنید
Understand Databricks Container Services
-
ساخت و استقرار تصویر Docker سفارشی روی خوشه
Build and Deploy Custom Docker Image on Cluster
-
خلاصه
Summary
نمایش نظرات