آموزش کاردانی خبره مهندس داده Master Databricks

دانلود Master Databricks Certified Data Engineer Associate Training

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: Databricks برای مهندسان داده: ETL، Delta Lake، و Apache Spark، ساخت خطوط لوله و گردش کار برای موفقیت. غیررسمی مبانی آجرهای داده و نقش آن در مهندسی داده. نحوه کار با پلتفرم Databricks Lakehouse، ترکیب دریاچه های داده و انبارهای داده. بهترین شیوه ها برای فرآیندهای هضم داده و ETL. ویژگی های دریاچه دلتا برای اطمینان از قابلیت اطمینان و عملکرد داده ها. نحوه مدیریت فرمت های مختلف داده مانند پارکت، CSV و JSON. مدیریت فراداده و کاتالوگ با استفاده از Hive Metastore و Databricks Catalog. اصول اولیه Apache Spark و استفاده از آن برای تبدیل داده ها. کار با DataFrames و Spark SQL برای پرس و جو و دستکاری داده ها. تکنیک هایی برای بهینه سازی تبدیل داده ها و عملکرد. نحوه خودکارسازی گردش کار و خطوط لوله با استفاده از Databricks Jobs و Workflows. اجرای حاکمیت داده، کنترل دسترسی و پایش خطوط لوله. تکنیک های تنظیم عملکرد مانند حافظه پنهان، پرش داده ها و بهینه سازی خوشه. پردازش جریانی داده با استفاده از جریان ساختاری در Databricks. تضمین کیفیت داده ها از طریق اعتبارسنجی و انتظارات. و خیلی چیزهای دیگر پیش نیازها: تمایل یا علاقه به یادگیری در مورد دانشیار تایید شده مهندس داده Databricks برای موفقیت.

مهم قبل از ثبت نام:

این دوره برای تکمیل آمادگی شما برای امتحانات گواهینامه طراحی شده است، اما جایگزینی برای مواد رسمی فروشنده نیست. توسط فروشنده گواهی تایید نشده است، و شما مواد آموزشی رسمی گواهینامه یا کوپن را به عنوان بخشی از این دوره دریافت نخواهید کرد.

پتانسیل کامل مهندسی داده را با Databricks باز کنید، پلت فرمی پیشرفته که برای مدیریت خطوط لوله داده در مقیاس بزرگ، فرآیندهای ETL و تجزیه و تحلیل پیشرفته طراحی شده است. این دوره جامع برای مهندسان داده، تحلیلگران و هر کسی که به دنبال افزایش مهارت های خود در ایجاد گردش کار داده های کارآمد و مقیاس پذیر با استفاده از پلت فرم Databricks Lakehouse است، عالی است.

چه در Databricks تازه کار باشید و چه به دنبال تعمیق درک خود باشید، این دوره شما را از طریق مفاهیم اصلی و تکنیک های پیشرفته مورد نیاز برای برتری در مهندسی داده راهنمایی می کند.

ما با معرفی Databricks و اجزای کلیدی آن شروع می‌کنیم و توضیح می‌دهیم که چگونه وظایف مهندسی داده را ساده می‌کند. با معماری نوآورانه Databricks Lakehouse آشنا خواهید شد که مزایای دریاچه های داده و انبارهای داده را ادغام می کند و رویکردی واحد برای مدیریت داده و تجزیه و تحلیل ارائه می دهد.

همانطور که در کار با داده‌ها عمیق‌تر می‌شویم، فرآیندهای دریافت داده و ETL (Extract, Transform, Load) را بررسی می‌کنید و بر بهترین شیوه‌ها برای تهیه و پردازش داده‌ها مسلط می‌شوید. با Delta Lake، لایه ذخیره‌سازی قدرتمندی که قابلیت اطمینان و عملکرد داده‌ها را در Databricks افزایش می‌دهد، تجربه عملی کسب خواهید کرد. ما فرمت‌ها و منابع داده‌های مختلف را پوشش می‌دهیم و اطمینان می‌دهیم که در مدیریت فرمت‌هایی مانند Parquet، CSV، و JSON و همچنین مدیریت ابرداده با Hive Metastore و Databricks Catalog به خوبی مسلط هستید.

بخش کلیدی دوره بر Apache Spark، موتور پشت Databricks تمرکز دارد. متوجه خواهید شد که چگونه Spark پردازش داده ها را ساده می کند و تغییرات سریع و مقیاس پذیر را امکان پذیر می کند. شما با DataFrames برای دستکاری داده ها کار خواهید کرد، Spark SQL را برای پرس و جو و تبدیل داده ها کاوش خواهید کرد، و تکنیک های بهینه سازی را یاد خواهید گرفت که پردازش کارآمد داده را تضمین می کند، مانند pushdown predicate و I/O بردار.

با حرکت به سمت مدیریت خط لوله، این دوره مفاهیم اساسی مانند گردش کار مهندسی داده را پوشش می‌دهد و شما یاد خواهید گرفت که چگونه این گردش‌ها را با استفاده از Databricks Jobs خودکار کنید. ما ابزارهای تنظیم گردش کار Databricks را معرفی خواهیم کرد و به شما آموزش می دهیم که چگونه وابستگی ها و محرک های کار را تنظیم کنید تا از اجرای یکپارچه خط لوله اطمینان حاصل کنید.

مدیریت و حاکمیت داده در هر پروژه مهندسی داده حیاتی است. این دوره به شما اصول حاکمیت داده، از جمله اجرای کنترل دسترسی مبتنی بر نقش (RBAC) برای مدیریت مجوزها را به شما آموزش می دهد. همچنین می‌آموزید که چگونه خطوط لوله داده‌های خود را برای عملکرد نظارت و ممیزی کنید، نسخه‌سازی داده‌ها را حفظ کنید، و خط و نسب را با استفاده از Delta Lake دنبال کنید، و از یکپارچگی داده‌ها در طول چرخه عمر اطمینان حاصل کنید.

بهینه سازی عملکرد یکی دیگر از زمینه های مهمی است که ما بررسی خواهیم کرد. شما یاد خواهید گرفت که چگونه خوشه ها را برای بارهای کاری مختلف پیکربندی کنید، از حافظه پنهان و پرش داده ها برای بهبود عملکرد پرس و جو و عیب یابی مشکلات رایج عملکرد استفاده کنید. تکنیک‌های پیشرفته بهینه‌سازی دریاچه دلتا، مانند OPTIMIZE و ZORDER، به شما کمک می‌کنند تا عملکرد عملیات داده‌تان را بیشتر کنید.

در نهایت، ما به موضوعات پیشرفته‌ای مانند پردازش جریانی داده با جریان ساخت‌یافته در Databricks، رسیدگی به داده‌های دیررس و تضمین کیفیت داده از طریق اعتبارسنجی و انتظارات می‌پردازیم. این تضمین می‌کند که به خوبی برای چالش‌های داده‌های هم‌زمان در محیط‌های داده پرسرعت امروزی آماده هستید.

در پایان این دوره، شما به مهارت‌هایی برای ساخت، بهینه‌سازی و مدیریت خطوط لوله داده مقیاس‌پذیر، تسلط بر Databricks و Apache Spark و اجرای بهترین شیوه‌ها در مدیریت داده، تنظیم عملکرد، و جریان مجهز خواهید شد.

چه در حال آماده شدن برای حرفه ای در زمینه مهندسی داده باشید یا به دنبال بهبود تخصص خود باشید، این دوره شما را در مسیر موفقیت قرار می دهد.

متشکرم


سرفصل ها و درس ها

مقدمه ای بر Databricks و مهندسی داده Introduction to Databricks and Data Engineering

  • Databricks چیست؟ What is Databricks?

  • مقدمه ای بر پلتفرم Databricks Lakehouse Introduction to the Databricks Lakehouse Platform

کار با داده ها روی Databricks Working with Data on Databricks

  • دریافت داده ها و مفاهیم ETL Data Ingestion and ETL Concepts

  • درک دریاچه دلتا Understanding Delta Lake

  • منابع داده و فرمت ها در Databricks Data Sources and Formats in Databricks

  • مدیریت فراداده و کاتالوگ Managing Metadata and Catalogs

تبدیل داده ها با آپاچی اسپارک Transforming Data with Apache Spark

  • مقدمه ای بر آپاچی اسپارک برای مهندسی داده Introduction to Apache Spark for Data Engineering

  • کار با DataFrames Working with DataFrames

  • بهینه سازی تبدیل داده ها Optimizing Data Transformations

  • آشنایی با Spark SQL Understanding Spark SQL

مدیریت خطوط لوله و گردش کار Managing Pipelines and Workflows

  • مقدمه ای بر گردش کار مهندسی داده Introduction to Data Engineering Workflows

  • استفاده از Databricks Jobs برای اتوماسیون خطوط لوله Using Databricks Jobs for Pipeline Automation

  • تنظیم گردش کار با Databricks Workflow Orchestrating Workflows with Databricks Workflows

  • مقدمه ای بر وابستگی ها و محرک های کار Introduction to Task Dependencies and Triggers

مدیریت داده ها و حاکمیت Data Management and Governance

  • مبانی حاکمیت داده Data Governance Fundamentals

  • پیاده سازی کنترل های دسترسی Implementing Access Controls

  • پایش و حسابرسی خطوط لوله داده Monitoring and Auditing Data Pipelines

  • نسخه سازی داده ها و نسب با دریاچه دلتا Data Versioning and Lineage with Delta Lake

بهینه سازی عملکرد و عیب یابی Performance Optimization and Troubleshooting

  • بهینه سازی پیکربندی کلاستر Optimizing Cluster Configuration

  • آشنایی با حافظه پنهان و پرش داده ها Understanding Caching and Data Skipping

  • عیب یابی مشکلات رایج عملکرد Troubleshooting Common Performance Issues

  • تکنیک های بهینه سازی دریاچه دلتا Delta Lake Optimization Techniques

مفاهیم پیشرفته در مهندسی داده Advanced Concepts in Data Engineering

  • مقدمه ای بر جریان داده ها با جریان ساخت یافته Introduction to Streaming Data with Structured Streaming

  • مدیریت داده های دیرهنگام و واترمارکینگ Handling Late Data and Watermarking

  • تضمین کیفیت داده ها با انتظارات و اعتبارسنجی ها Ensuring Data Quality with Expectations and Validations

نمایش نظرات

آموزش کاردانی خبره مهندس داده Master Databricks
جزییات دوره
2 hours
25
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
107
5 از 5
ندارد
دارد
دارد
Raheem ace
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Raheem ace Raheem ace

توانمندسازی ذهن ها و برانگیختن کنجکاوی