لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش مهندسی داده با Spark Databricks Delta Lake Lakehouse
Data Engineering with Spark Databricks Delta Lake Lakehouse
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
Apache Spark Databricks Lakehouse Delta Lake Delta Tables Delta Caching Scala Python Data Engineering برای مبتدیان کسب مهارت های لازم برای واجد شرایط بودن برای موقعیت مهندسی داده سطح پایه توسعه درک عملی مفاهیم Data Lakehouse از طریق تجربه عملی یادگیری کار با جدول دلتا توسط دسترسی به تاریخچه نسخه آن، بازیابی داده ها و استفاده از قابلیت سفر در زمان بهینه سازی جدول دلتا با تکنیک های مختلف مانند کش کردن، پارتیشن بندی و مرتب سازی z برای تجزیه و تحلیل سریع تر. کسب دانش عملی در ساخت خط لوله داده از طریق استفاده از Apache Spark در پلت فرم Databricks. پیش نیازها: درک کمی از پرس و جوهای پایگاه داده و SQL
مهندسی داده جزء حیاتی کسب و کارهای مدرن مبتنی بر داده است. توانایی پردازش، مدیریت و تجزیه و تحلیل مجموعه های داده در مقیاس بزرگ یک نیاز اصلی برای سازمان هایی است که می خواهند رقابتی باقی بمانند. در این دوره آموزشی، نحوه ایجاد خط لوله داده با استفاده از Apache Spark در معماری Lakehouse Databricks را خواهید آموخت. این به شما تجربه عملی در کار با مفاهیم Spark و Lakehouse و همچنین مهارت های مورد نیاز برای برتری به عنوان مهندس داده در یک محیط واقعی را به شما می دهد.
در طول دوره، یاد خواهید گرفت که چگونه با استفاده از Python و Scala با Spark تجزیه و تحلیل انجام دهید، Spark SQL و Databricks SQL را برای تجزیه و تحلیل بکار ببرید، خط لوله داده را با Apache Spark توسعه دهید، به سرعت در نسخه جامعه Databricks مهارت پیدا کنید، Delta را مدیریت کنید. جدول را با دسترسی به تاریخچه نسخه، بازیابی داده ها و استفاده از ویژگی های سفر در زمان، بهینه سازی عملکرد پرس و جو با استفاده از Delta Cache، کار با Delta Tables و Databricks File System، و به دست آوردن بینش در مورد سناریوهای دنیای واقعی از مربی مجرب ما.
در ابتدای دوره، با آشنایی با نسخه جامعه Databricks و ایجاد یک خط لوله اولیه با استفاده از Spark شروع میکنید. این به شما کمک می کند تا قبل از اینکه به موضوعات پیچیده تر بروید، محیط خود را تنظیم کنید و با پلتفرم راحت شوید.
هنگامی که با اصول اولیه آشنا شدید، یاد خواهید گرفت که چگونه با استفاده از Python و Scala تجزیه و تحلیل را با Spark انجام دهید. این شامل موضوعاتی مانند تبدیل Spark، اقدامات، پیوستن به Spark SQL و APIهای DataFrame میشود.
در بخش پایانی دوره، دانش و مهارت لازم برای کار با جدول دلتا را به دست خواهید آورد. این شامل دسترسی به تاریخچه نسخه، بازیابی داده ها و استفاده از قابلیت سفر در زمان با استفاده از Spark و Databricks SQL است. علاوه بر این، نحوه استفاده از کش دلتا برای بهینه سازی عملکرد پرس و جو را خواهید آموخت.
این دوره برای مبتدیان مهندسی داده بدون نیاز به دانش قبلی در مورد Python و Scala طراحی شده است. اما برای موفقیت در این دوره، آشنایی با پایگاه های داده و SQL ضروری است. پس از تکمیل، مهارت ها و دانش لازم برای موفقیت در نقش مهندس داده در دنیای واقعی را خواهید داشت.
در طول دوره، شما با مثالهای عملی و سناریوهای دنیای واقعی کار خواهید کرد تا مفاهیمی را که یاد میگیرید به کار ببرید. در پایان دوره، شما تجربه عملی و مهارت های لازم برای درک مفاهیم Spark و Lakehouse و ایجاد یک خط لوله داده مقیاس پذیر و قابل اعتماد با استفاده از Apache Spark در معماری Lakehouse Databricks را خواهید داشت.
سرفصل ها و درس ها
معرفی و ساخت یک خط لوله ساده
Introduction and building a simple pipeline
معرفی
Introduction
مهندسی داده با اسپارک
Data Engineering with Spark
Databricks چیست؟
What is Databricks
ایجاد یک حساب کاربری Databricks Community Edition
Creating a Databricks Community Edition account
ساخت یک خط لوله داده پایه
Building a basic data pipeline
خواندن داده ها از جداول DBFS و Delta
Reading data from DBFS and Delta Tables
نوشتن داده ها در جداول DBFS و Delta
Writing data to DBFS and Delta tables
صادرات و واردات نوت بوک
Exporting and importing Notebooks
بازبینی خط لوله داده های اولیه
Revisiting the basic data pipeline
مهندسی داده با آپاچی اسپارک
Data Engineering with Apache Spark
تغییرات و اقدامات بیشتر با استفاده از PySpark
More Transformations and Actions using PySpark
انجام تحولات در اسکالا
Doing the Transformations in Scala
دوره سقوط پایتون اسکالا
Python Scala crash course
توابع تعریف شده توسط کاربر اسپارک (UDF)
Spark User Defined Functions (UDF)
پیوستن به مجموعه داده ها با استفاده از DataFrame API و Spark SQL
Joining Datasets using DataFrame APIs and Spark SQL
عملیات پیوستن بیشتر با استفاده از Spark
More join operations using Spark
خلاصه بخش
Section summary
Dat Lakehouse Delta Lake و Delta Tables شیرجه عمیق
Dat Lakehouse Delta Lake and Delta Tables deep dive
آشنایی با Data Warehouse، Data Lake و Data Lakehouse
Understanding Data Warehouse, Data Lake and Data Lakehouse
Databricks Lakehouse Architecture و Delta Lake
Databricks Lakehouse Architecture and Delta Lake
جداول دلتا
Delta Tables
ذخیره داده ها در جدول دلتا، Databricks SQL و سفر در زمان
Storing data in a Delta table, Databricks SQL and time travel
Databricks SQL در مقابل Spark SQL
Databricks SQL vs Spark SQL
نمایش نظرات