آموزش مهندسی داده با Spark Databricks Delta Lake Lakehouse

Data Engineering with Spark Databricks Delta Lake Lakehouse

در حال بارگزاری نمونه ویدیو، لطفا صبر کنید...

Video Player is loading.

Current Time 0:00

Duration 0:00

Loaded: 0%

Stream Type LIVE

Remaining Time 0:00

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

در حال بارگزاری، لطفا صبر کنید...

توضیحات دوره: Apache Spark Databricks Lakehouse Delta Lake Delta Tables Delta Caching Scala Python Data Engineering برای مبتدیان کسب مهارت های لازم برای واجد شرایط بودن برای موقعیت مهندسی داده سطح پایه توسعه درک عملی مفاهیم Data Lakehouse از طریق تجربه عملی یادگیری کار با جدول دلتا توسط دسترسی به تاریخچه نسخه آن، بازیابی داده ها و استفاده از قابلیت سفر در زمان بهینه سازی جدول دلتا با تکنیک های مختلف مانند کش کردن، پارتیشن بندی و مرتب سازی z برای تجزیه و تحلیل سریع تر. کسب دانش عملی در ساخت خط لوله داده از طریق استفاده از Apache Spark در پلت فرم Databricks. پیش نیازها: درک کمی از پرس و جوهای پایگاه داده و SQL

مهندسی داده جزء حیاتی کسب و کارهای مدرن مبتنی بر داده است. توانایی پردازش، مدیریت و تجزیه و تحلیل مجموعه های داده در مقیاس بزرگ یک نیاز اصلی برای سازمان هایی است که می خواهند رقابتی باقی بمانند. در این دوره آموزشی، نحوه ایجاد خط لوله داده با استفاده از Apache Spark در معماری Lakehouse Databricks را خواهید آموخت. این به شما تجربه عملی در کار با مفاهیم Spark و Lakehouse و همچنین مهارت های مورد نیاز برای برتری به عنوان مهندس داده در یک محیط واقعی را به شما می دهد.

در طول دوره، یاد خواهید گرفت که چگونه با استفاده از Python و Scala با Spark تجزیه و تحلیل انجام دهید، Spark SQL و Databricks SQL را برای تجزیه و تحلیل بکار ببرید، خط لوله داده را با Apache Spark توسعه دهید، به سرعت در نسخه جامعه Databricks مهارت پیدا کنید، Delta را مدیریت کنید. جدول را با دسترسی به تاریخچه نسخه، بازیابی داده ها و استفاده از ویژگی های سفر در زمان، بهینه سازی عملکرد پرس و جو با استفاده از Delta Cache، کار با Delta Tables و Databricks File System، و به دست آوردن بینش در مورد سناریوهای دنیای واقعی از مربی مجرب ما.

در ابتدای دوره، با آشنایی با نسخه جامعه Databricks و ایجاد یک خط لوله اولیه با استفاده از Spark شروع می‌کنید. این به شما کمک می کند تا قبل از اینکه به موضوعات پیچیده تر بروید، محیط خود را تنظیم کنید و با پلتفرم راحت شوید.

هنگامی که با اصول اولیه آشنا شدید، یاد خواهید گرفت که چگونه با استفاده از Python و Scala تجزیه و تحلیل را با Spark انجام دهید. این شامل موضوعاتی مانند تبدیل Spark، اقدامات، پیوستن به Spark SQL و APIهای DataFrame می‌شود.

در بخش پایانی دوره، دانش و مهارت لازم برای کار با جدول دلتا را به دست خواهید آورد. این شامل دسترسی به تاریخچه نسخه، بازیابی داده ها و استفاده از قابلیت سفر در زمان با استفاده از Spark و Databricks SQL است. علاوه بر این، نحوه استفاده از کش دلتا برای بهینه سازی عملکرد پرس و جو را خواهید آموخت.

این دوره برای مبتدیان مهندسی داده بدون نیاز به دانش قبلی در مورد Python و Scala طراحی شده است. اما برای موفقیت در این دوره، آشنایی با پایگاه های داده و SQL ضروری است. پس از تکمیل، مهارت ها و دانش لازم برای موفقیت در نقش مهندس داده در دنیای واقعی را خواهید داشت.

در طول دوره، شما با مثال‌های عملی و سناریوهای دنیای واقعی کار خواهید کرد تا مفاهیمی را که یاد می‌گیرید به کار ببرید. در پایان دوره، شما تجربه عملی و مهارت های لازم برای درک مفاهیم Spark و Lakehouse و ایجاد یک خط لوله داده مقیاس پذیر و قابل اعتماد با استفاده از Apache Spark در معماری Lakehouse Databricks را خواهید داشت.

سرفصل ها و درس ها

معرفی و ساخت یک خط لوله ساده Introduction and building a simple pipeline

معرفی Introduction
مهندسی داده با اسپارک Data Engineering with Spark
Databricks چیست؟ What is Databricks
ایجاد یک حساب کاربری Databricks Community Edition Creating a Databricks Community Edition account
ساخت یک خط لوله داده پایه Building a basic data pipeline
خواندن داده ها از جداول DBFS و Delta Reading data from DBFS and Delta Tables
نوشتن داده ها در جداول DBFS و Delta Writing data to DBFS and Delta tables
صادرات و واردات نوت بوک Exporting and importing Notebooks
بازبینی خط لوله داده های اولیه Revisiting the basic data pipeline

مهندسی داده با آپاچی اسپارک Data Engineering with Apache Spark

تغییرات و اقدامات بیشتر با استفاده از PySpark More Transformations and Actions using PySpark
انجام تحولات در اسکالا Doing the Transformations in Scala
دوره سقوط پایتون اسکالا Python Scala crash course
توابع تعریف شده توسط کاربر اسپارک (UDF) Spark User Defined Functions (UDF)
پیوستن به مجموعه داده ها با استفاده از DataFrame API و Spark SQL Joining Datasets using DataFrame APIs and Spark SQL
عملیات پیوستن بیشتر با استفاده از Spark More join operations using Spark
خلاصه بخش Section summary

Dat Lakehouse Delta Lake و Delta Tables شیرجه عمیق Dat Lakehouse Delta Lake and Delta Tables deep dive

آشنایی با Data Warehouse، Data Lake و Data Lakehouse Understanding Data Warehouse, Data Lake and Data Lakehouse
Databricks Lakehouse Architecture و Delta Lake Databricks Lakehouse Architecture and Delta Lake
جداول دلتا Delta Tables
ذخیره داده ها در جدول دلتا، Databricks SQL و سفر در زمان Storing data in a Delta table, Databricks SQL and time travel
Databricks SQL در مقابل Spark SQL Databricks SQL vs Spark SQL
ذخیره سازی جداول دلتا Delta Table caching
پارتیشن بندی میز دلتا Delta Table partitioning
ترتیب جدول دلتا Z Delta Table Z-ordering
از اینجا به کجا برویم؟ Where to go from here?
تبریک و تشکر Congratulations & Thank You