آموزش شروع کار با دریاچه دلتا در Databricks

Getting Started with Delta Lake on Databricks

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: این دوره به شما یاد می‌دهد که چگونه می‌توانید داده‌ها را ایجاد کنید، دریافت کنید و با آن کار کنید، Delta Lakes، یک لایه ذخیره‌سازی منبع باز که قابلیت اطمینان را برای داده‌های ذخیره شده در دریاچه‌های داده به ارمغان می‌آورد. دریاچه های دلتا تراکنش های اسیدی، پردازش دسته ای و جریانی یکپارچه را ارائه می دهند. معماری Databricks Data Lakehouse یک الگوی نوآورانه است که انعطاف پذیری و ذخیره سازی کم هزینه ارائه شده توسط دریاچه های داده را با ویژگی ها و قابلیت های یک انبار داده ترکیب می کند. معماری Lakehouse با استفاده از ابرداده، نمایه سازی و لایه ذخیره سازی در بالای ذخیره سازی دریاچه داده به این امر دست می یابد. این لایه ذخیره‌سازی منبع باز دلتا لیک است. این لایه ذخیره سازی دریاچه دلتا در قلب معماری خانه دریاچه Databricks قرار دارد. در این دوره آموزشی، شروع کار با Delta Lake در Databricks، یاد خواهید گرفت که دقیقاً چگونه Delta Lakes از تراکنش ها در فضای ذخیره سازی ابری پشتیبانی می کند. ابتدا عناصر اصلی دلتا لیک یعنی فایل های دلتا، جداول دلتا، دلتالوگ و بهینه سازی های دلتا را خواهید آموخت. در مرحله بعد، خواهید فهمید که چگونه می توانید عملکرد بهتری از پرس و جوهایی که در جداول دلتا با استفاده از بهینه سازی های مختلف اجرا می کنید، به دست آورید. در اینجا شما ذخیره سازی دلتا، پرش داده ها و بهینه سازی های طرح بندی فایل مانند پارتیشن بندی، بسته بندی bin و خوشه بندی مرتبه z را بررسی خواهید کرد. در نهایت، نحوه ورود داده‌ها از منابع خارجی به جداول دلتا را با استفاده از انتقال دسته‌ای و جریانی بررسی خواهید کرد. شما از دستور COPY INTO برای انتقال دسته ای و از Databricks Auto Loader برای دریافت جریان استفاده خواهید کرد. پس از اتمام این دوره، مهارت و توانایی ایجاد و ورود داده به دریاچه های دلتا و اجرای پرس و جوهای بهینه برای استخراج بینش را خواهید داشت.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

کاوش دریاچه دلتا روی Databricks Exploring Delta Lake on Databricks

  • پیش نیازها و رئوس مطالب دوره Prerequisites and Course Outline

  • مروری سریع بر Databricks Quick Overview of Databricks

  • معماری Databricks Data Lakehouse The Databricks Data Lakehouse Architecture

  • دریاچه های دلتا Delta Lakes

  • جداول دلتا Delta Tables

  • جداول دلتا و معاملات Delta Tables and Transactions

  • نسخه ی نمایشی: راه اندازی فضای کاری Databricks و ایجاد Apache Spark Cluster Demo: Launching the Databricks Workspace and Creating the Apache Spark Cluster

  • نسخه ی نمایشی: فعال کردن DBFS و آپلود داده ها Demo: Enabling DBFS and Uploading Data

  • نسخه ی نمایشی: ایجاد یک جدول دلتا با استفاده از رابط کاربری Demo: Creating a Delta Table Using the UI

  • نسخه ی نمایشی: خواندن و نوشتن در جداول دلتا با استفاده از اسپارک آپاچی Demo: Reading from and Writing to Delta Tables Using Apache Spark

  • نسخه ی نمایشی: کاوش در ساختار جداول دلتا Demo: Exploring the Structure of Delta Tables

  • نسخه ی نمایشی: معاملات و تعهدات در جداول دلتا Demo: Transactions and Commits in Delta Tables

  • نسخه ی نمایشی: سفر در زمان در جداول دلتا Demo: Time Travel in Delta Tables

  • نسخه ی نمایشی: پاک کردن نسخه های قدیمی با استفاده از VACUUM Demo: Cleaning up Old Versions Using VACUUM

بهینه سازی پرس و جوها در جداول دلتا Optimizing Queries on Delta Tables

  • دریاچه های دلتا و موتور دلتا Delta Lakes and Delta Engine

  • بهینه سازی های دلتا: ذخیره سازی و پرش داده ها Delta Optimizations: Caching and Data Skipping

  • نسخه ی نمایشی: فعال کردن کش دلتا Demo: Enabling the Delta Cache

  • نسخه ی نمایشی: ذخیره کردن نتایج و دسترسی به نتایج ذخیره شده در حافظه پنهان Demo: Caching Results and Accessing Cached Results

  • نسخه ی نمایشی: بازیابی زیرمجموعه های داده های ذخیره شده Demo: Retrieving Subsets of Cached Data

  • نسخه ی نمایشی: غیرفعال کردن کش دلتا Demo: Disabling the Delta Cache

  • بهینه سازی دلتا: بهینه سازی طرح بندی فایل Delta Optimizations: File Layout Optimizations

  • نسخه ی نمایشی: اجرای پرس و جوها در جدول اصلی بهینه نشده Demo: Running Queries on the Original Non-optimized Table

  • نسخه ی نمایشی: پارتیشن بندی جداول دلتا Demo: Partitioning Delta Tables

  • نسخه ی نمایشی: فشرده سازی یا Bin-packing Demo: Compaction or Bin-packing

  • نسخه ی نمایشی: Z-ordering Demo: Z-ordering

بلع دسته ای و جریان داده در جداول دلتا Ingesting Batch and Streaming Data into Delta Tables

  • COPY INTO در مقابل Auto Loader COPY INTO vs. Auto Loader

  • لودر خودکار Auto Loader

  • نسخه ی نمایشی: ایجاد جدول دلتا و آپلود فایل ها در DBFS Demo: Creating the Delta Table and Uploading Files to DBFS

  • نسخه ی نمایشی: بارگیری دسته ای داده با استفاده از COPY INTO Demo: Batch Loading Data Using COPY INTO

  • نسخه ی نمایشی: انجام بارگیری دسته ای با استفاده از کارهای زمان بندی شده Demo: Performing Batch Loading Using Scheduled Jobs

  • نسخه ی نمایشی: ایجاد یک کاربر AWS و سطل S3 Demo: Creating an AWS User and S3 Bucket

  • نسخه ی نمایشی: استفاده از بارگذار خودکار برای دریافت داده ها از منبع جریان Demo: Using Auto Loader to Ingest Data from a Streaming Source

  • نسخه ی نمایشی: بارگیری داده های جریانی در یک جدول دلتا Demo: Loading Streaming Data in to a Delta Table

  • خلاصه و مطالعه بیشتر Summary and Further Study

نمایش نظرات

آموزش شروع کار با دریاچه دلتا در Databricks
جزییات دوره
2h 29m
35
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.