آموزش مهندسی داده با Spark Databricks Delta Lake Lakehouse

Data Engineering with Spark Databricks Delta Lake Lakehouse

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: Apache Spark Databricks Lakehouse Delta Lake Delta Tables Delta Caching Scala Python Data Engineering برای مبتدیان کسب مهارت های لازم برای واجد شرایط بودن برای موقعیت مهندسی داده سطح پایه توسعه درک عملی مفاهیم Data Lakehouse از طریق تجربه عملی یادگیری کار با جدول دلتا توسط دسترسی به تاریخچه نسخه آن، بازیابی داده ها و استفاده از قابلیت سفر در زمان بهینه سازی جدول دلتا با تکنیک های مختلف مانند کش کردن، پارتیشن بندی و مرتب سازی z برای تجزیه و تحلیل سریع تر. کسب دانش عملی در ساخت خط لوله داده از طریق استفاده از Apache Spark در پلت فرم Databricks. پیش نیازها: درک کمی از پرس و جوهای پایگاه داده و SQL

مهندسی داده جزء حیاتی کسب و کارهای مدرن مبتنی بر داده است. توانایی پردازش، مدیریت و تجزیه و تحلیل مجموعه های داده در مقیاس بزرگ یک نیاز اصلی برای سازمان هایی است که می خواهند رقابتی باقی بمانند. در این دوره آموزشی، نحوه ایجاد خط لوله داده با استفاده از Apache Spark در معماری Lakehouse Databricks را خواهید آموخت. این به شما تجربه عملی در کار با مفاهیم Spark و Lakehouse و همچنین مهارت های مورد نیاز برای برتری به عنوان مهندس داده در یک محیط واقعی را به شما می دهد.


در طول دوره، یاد خواهید گرفت که چگونه با استفاده از Python و Scala با Spark تجزیه و تحلیل انجام دهید، Spark SQL و Databricks SQL را برای تجزیه و تحلیل بکار ببرید، خط لوله داده را با Apache Spark توسعه دهید، به سرعت در نسخه جامعه Databricks مهارت پیدا کنید، Delta را مدیریت کنید. جدول را با دسترسی به تاریخچه نسخه، بازیابی داده ها و استفاده از ویژگی های سفر در زمان، بهینه سازی عملکرد پرس و جو با استفاده از Delta Cache، کار با Delta Tables و Databricks File System، و به دست آوردن بینش در مورد سناریوهای دنیای واقعی از مربی مجرب ما.


در ابتدای دوره، با آشنایی با نسخه جامعه Databricks و ایجاد یک خط لوله اولیه با استفاده از Spark شروع می‌کنید. این به شما کمک می کند تا قبل از اینکه به موضوعات پیچیده تر بروید، محیط خود را تنظیم کنید و با پلتفرم راحت شوید.


هنگامی که با اصول اولیه آشنا شدید، یاد خواهید گرفت که چگونه با استفاده از Python و Scala تجزیه و تحلیل را با Spark انجام دهید. این شامل موضوعاتی مانند تبدیل Spark، اقدامات، پیوستن به Spark SQL و APIهای DataFrame می‌شود.


در بخش پایانی دوره، دانش و مهارت لازم برای کار با جدول دلتا را به دست خواهید آورد. این شامل دسترسی به تاریخچه نسخه، بازیابی داده ها و استفاده از قابلیت سفر در زمان با استفاده از Spark و Databricks SQL است. علاوه بر این، نحوه استفاده از کش دلتا برای بهینه سازی عملکرد پرس و جو را خواهید آموخت.


این دوره برای مبتدیان مهندسی داده بدون نیاز به دانش قبلی در مورد Python و Scala طراحی شده است. اما برای موفقیت در این دوره، آشنایی با پایگاه های داده و SQL ضروری است. پس از تکمیل، مهارت ها و دانش لازم برای موفقیت در نقش مهندس داده در دنیای واقعی را خواهید داشت.


در طول دوره، شما با مثال‌های عملی و سناریوهای دنیای واقعی کار خواهید کرد تا مفاهیمی را که یاد می‌گیرید به کار ببرید. در پایان دوره، شما تجربه عملی و مهارت های لازم برای درک مفاهیم Spark و Lakehouse و ایجاد یک خط لوله داده مقیاس پذیر و قابل اعتماد با استفاده از Apache Spark در معماری Lakehouse Databricks را خواهید داشت.


سرفصل ها و درس ها

معرفی و ساخت یک خط لوله ساده Introduction and building a simple pipeline

  • معرفی Introduction

  • مهندسی داده با اسپارک Data Engineering with Spark

  • Databricks چیست؟ What is Databricks

  • ایجاد یک حساب کاربری Databricks Community Edition Creating a Databricks Community Edition account

  • ساخت یک خط لوله داده پایه Building a basic data pipeline

  • خواندن داده ها از جداول DBFS و Delta Reading data from DBFS and Delta Tables

  • نوشتن داده ها در جداول DBFS و Delta Writing data to DBFS and Delta tables

  • صادرات و واردات نوت بوک Exporting and importing Notebooks

  • بازبینی خط لوله داده های اولیه Revisiting the basic data pipeline

مهندسی داده با آپاچی اسپارک Data Engineering with Apache Spark

  • تغییرات و اقدامات بیشتر با استفاده از PySpark More Transformations and Actions using PySpark

  • انجام تحولات در اسکالا Doing the Transformations in Scala

  • دوره سقوط پایتون اسکالا Python Scala crash course

  • توابع تعریف شده توسط کاربر اسپارک (UDF) Spark User Defined Functions (UDF)

  • پیوستن به مجموعه داده ها با استفاده از DataFrame API و Spark SQL Joining Datasets using DataFrame APIs and Spark SQL

  • عملیات پیوستن بیشتر با استفاده از Spark More join operations using Spark

  • خلاصه بخش Section summary

Dat Lakehouse Delta Lake و Delta Tables شیرجه عمیق Dat Lakehouse Delta Lake and Delta Tables deep dive

  • آشنایی با Data Warehouse، Data Lake و Data Lakehouse Understanding Data Warehouse, Data Lake and Data Lakehouse

  • Databricks Lakehouse Architecture و Delta Lake Databricks Lakehouse Architecture and Delta Lake

  • جداول دلتا Delta Tables

  • ذخیره داده ها در جدول دلتا، Databricks SQL و سفر در زمان Storing data in a Delta table, Databricks SQL and time travel

  • Databricks SQL در مقابل Spark SQL Databricks SQL vs Spark SQL

  • ذخیره سازی جداول دلتا Delta Table caching

  • پارتیشن بندی میز دلتا Delta Table partitioning

  • ترتیب جدول دلتا Z Delta Table Z-ordering

  • از اینجا به کجا برویم؟ Where to go from here?

  • تبریک و تشکر Congratulations & Thank You

نمایش نظرات

آموزش مهندسی داده با Spark Databricks Delta Lake Lakehouse
جزییات دوره
2.5 hours
26
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,260
4.4 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

FutureX Skills FutureX Skills

توانمندسازی مهندسان داده و دانشمندان داده