دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش کاردانی خبره مهندس داده Master Databricks - آخرین آپدیت

دانلود Master Databricks Certified Data Engineer Associate Training new

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: Databricks برای مهندسان داده: ETL، Delta Lake، و Apache Spark، ساخت خطوط لوله و گردش کار برای موفقیت. غیررسمی مبانی آجرهای داده و نقش آن در مهندسی داده. نحوه کار با پلتفرم Databricks Lakehouse، ترکیب دریاچه های داده و انبارهای داده. بهترین شیوه ها برای فرآیندهای هضم داده و ETL. ویژگی های دریاچه دلتا برای اطمینان از قابلیت اطمینان و عملکرد داده ها. نحوه مدیریت فرمت های مختلف داده مانند پارکت، CSV و JSON. مدیریت فراداده و کاتالوگ با استفاده از Hive Metastore و Databricks Catalog. اصول اولیه Apache Spark و استفاده از آن برای تبدیل داده ها. کار با DataFrames و Spark SQL برای پرس و جو و دستکاری داده ها. تکنیک هایی برای بهینه سازی تبدیل داده ها و عملکرد. نحوه خودکارسازی گردش کار و خطوط لوله با استفاده از Databricks Jobs و Workflows. اجرای حاکمیت داده، کنترل دسترسی و پایش خطوط لوله. تکنیک های تنظیم عملکرد مانند حافظه پنهان، پرش داده ها و بهینه سازی خوشه. پردازش جریانی داده با استفاده از جریان ساختاری در Databricks. تضمین کیفیت داده ها از طریق اعتبارسنجی و انتظارات. و خیلی چیزهای دیگر پیش نیازها: تمایل یا علاقه به یادگیری در مورد دانشیار تایید شده مهندس داده Databricks برای موفقیت.

مهم قبل از ثبت نام:

این دوره برای تکمیل آمادگی شما برای امتحانات گواهینامه طراحی شده است، اما جایگزینی برای مواد رسمی فروشنده نیست. توسط فروشنده گواهی تایید نشده است، و شما مواد آموزشی رسمی گواهینامه یا کوپن را به عنوان بخشی از این دوره دریافت نخواهید کرد.

پتانسیل کامل مهندسی داده را با Databricks باز کنید، پلت فرمی پیشرفته که برای مدیریت خطوط لوله داده در مقیاس بزرگ، فرآیندهای ETL و تجزیه و تحلیل پیشرفته طراحی شده است. این دوره جامع برای مهندسان داده، تحلیلگران و هر کسی که به دنبال افزایش مهارت های خود در ایجاد گردش کار داده های کارآمد و مقیاس پذیر با استفاده از پلت فرم Databricks Lakehouse است، عالی است.

چه در Databricks تازه کار باشید و چه به دنبال تعمیق درک خود باشید، این دوره شما را از طریق مفاهیم اصلی و تکنیک های پیشرفته مورد نیاز برای برتری در مهندسی داده راهنمایی می کند.

ما با معرفی Databricks و اجزای کلیدی آن شروع می‌کنیم و توضیح می‌دهیم که چگونه وظایف مهندسی داده را ساده می‌کند. با معماری نوآورانه Databricks Lakehouse آشنا خواهید شد که مزایای دریاچه های داده و انبارهای داده را ادغام می کند و رویکردی واحد برای مدیریت داده و تجزیه و تحلیل ارائه می دهد.

همانطور که در کار با داده‌ها عمیق‌تر می‌شویم، فرآیندهای دریافت داده و ETL (Extract, Transform, Load) را بررسی می‌کنید و بر بهترین شیوه‌ها برای تهیه و پردازش داده‌ها مسلط می‌شوید. با Delta Lake، لایه ذخیره‌سازی قدرتمندی که قابلیت اطمینان و عملکرد داده‌ها را در Databricks افزایش می‌دهد، تجربه عملی کسب خواهید کرد. ما فرمت‌ها و منابع داده‌های مختلف را پوشش می‌دهیم و اطمینان می‌دهیم که در مدیریت فرمت‌هایی مانند Parquet، CSV، و JSON و همچنین مدیریت ابرداده با Hive Metastore و Databricks Catalog به خوبی مسلط هستید.

بخش کلیدی دوره بر Apache Spark، موتور پشت Databricks تمرکز دارد. متوجه خواهید شد که چگونه Spark پردازش داده ها را ساده می کند و تغییرات سریع و مقیاس پذیر را امکان پذیر می کند. شما با DataFrames برای دستکاری داده ها کار خواهید کرد، Spark SQL را برای پرس و جو و تبدیل داده ها کاوش خواهید کرد، و تکنیک های بهینه سازی را یاد خواهید گرفت که پردازش کارآمد داده را تضمین می کند، مانند pushdown predicate و I/O بردار.

با حرکت به سمت مدیریت خط لوله، این دوره مفاهیم اساسی مانند گردش کار مهندسی داده را پوشش می‌دهد و شما یاد خواهید گرفت که چگونه این گردش‌ها را با استفاده از Databricks Jobs خودکار کنید. ما ابزارهای تنظیم گردش کار Databricks را معرفی خواهیم کرد و به شما آموزش می دهیم که چگونه وابستگی ها و محرک های کار را تنظیم کنید تا از اجرای یکپارچه خط لوله اطمینان حاصل کنید.

مدیریت و حاکمیت داده در هر پروژه مهندسی داده حیاتی است. این دوره به شما اصول حاکمیت داده، از جمله اجرای کنترل دسترسی مبتنی بر نقش (RBAC) برای مدیریت مجوزها را به شما آموزش می دهد. همچنین می‌آموزید که چگونه خطوط لوله داده‌های خود را برای عملکرد نظارت و ممیزی کنید، نسخه‌سازی داده‌ها را حفظ کنید، و خط و نسب را با استفاده از Delta Lake دنبال کنید، و از یکپارچگی داده‌ها در طول چرخه عمر اطمینان حاصل کنید.

بهینه سازی عملکرد یکی دیگر از زمینه های مهمی است که ما بررسی خواهیم کرد. شما یاد خواهید گرفت که چگونه خوشه ها را برای بارهای کاری مختلف پیکربندی کنید، از حافظه پنهان و پرش داده ها برای بهبود عملکرد پرس و جو و عیب یابی مشکلات رایج عملکرد استفاده کنید. تکنیک‌های پیشرفته بهینه‌سازی دریاچه دلتا، مانند OPTIMIZE و ZORDER، به شما کمک می‌کنند تا عملکرد عملیات داده‌تان را بیشتر کنید.

در نهایت، ما به موضوعات پیشرفته‌ای مانند پردازش جریانی داده با جریان ساخت‌یافته در Databricks، رسیدگی به داده‌های دیررس و تضمین کیفیت داده از طریق اعتبارسنجی و انتظارات می‌پردازیم. این تضمین می‌کند که به خوبی برای چالش‌های داده‌های هم‌زمان در محیط‌های داده پرسرعت امروزی آماده هستید.

در پایان این دوره، شما به مهارت‌هایی برای ساخت، بهینه‌سازی و مدیریت خطوط لوله داده مقیاس‌پذیر، تسلط بر Databricks و Apache Spark و اجرای بهترین شیوه‌ها در مدیریت داده، تنظیم عملکرد، و جریان مجهز خواهید شد.

چه در حال آماده شدن برای حرفه ای در زمینه مهندسی داده باشید یا به دنبال بهبود تخصص خود باشید، این دوره شما را در مسیر موفقیت قرار می دهد.

متشکرم

سرفصل ها و درس ها

مقدمه ای بر Databricks و مهندسی داده Introduction to Databricks and Data Engineering

Databricks چیست؟ What is Databricks?
مقدمه ای بر پلتفرم Databricks Lakehouse Introduction to the Databricks Lakehouse Platform

کار با داده ها روی Databricks Working with Data on Databricks

دریافت داده ها و مفاهیم ETL Data Ingestion and ETL Concepts
درک دریاچه دلتا Understanding Delta Lake
منابع داده و فرمت ها در Databricks Data Sources and Formats in Databricks
مدیریت فراداده و کاتالوگ Managing Metadata and Catalogs

تبدیل داده ها با آپاچی اسپارک Transforming Data with Apache Spark

مقدمه ای بر آپاچی اسپارک برای مهندسی داده Introduction to Apache Spark for Data Engineering
کار با DataFrames Working with DataFrames
بهینه سازی تبدیل داده ها Optimizing Data Transformations
آشنایی با Spark SQL Understanding Spark SQL

مدیریت خطوط لوله و گردش کار Managing Pipelines and Workflows

مقدمه ای بر گردش کار مهندسی داده Introduction to Data Engineering Workflows
استفاده از Databricks Jobs برای اتوماسیون خطوط لوله Using Databricks Jobs for Pipeline Automation
تنظیم گردش کار با Databricks Workflow Orchestrating Workflows with Databricks Workflows
مقدمه ای بر وابستگی ها و محرک های کار Introduction to Task Dependencies and Triggers

مدیریت داده ها و حاکمیت Data Management and Governance

مبانی حاکمیت داده Data Governance Fundamentals
پیاده سازی کنترل های دسترسی Implementing Access Controls
پایش و حسابرسی خطوط لوله داده Monitoring and Auditing Data Pipelines
نسخه سازی داده ها و نسب با دریاچه دلتا Data Versioning and Lineage with Delta Lake

بهینه سازی عملکرد و عیب یابی Performance Optimization and Troubleshooting

بهینه سازی پیکربندی کلاستر Optimizing Cluster Configuration
آشنایی با حافظه پنهان و پرش داده ها Understanding Caching and Data Skipping
عیب یابی مشکلات رایج عملکرد Troubleshooting Common Performance Issues
تکنیک های بهینه سازی دریاچه دلتا Delta Lake Optimization Techniques

مفاهیم پیشرفته در مهندسی داده Advanced Concepts in Data Engineering

مقدمه ای بر جریان داده ها با جریان ساخت یافته Introduction to Streaming Data with Structured Streaming
مدیریت داده های دیرهنگام و واترمارکینگ Handling Late Data and Watermarking
تضمین کیفیت داده ها با انتظارات و اعتبارسنجی ها Ensuring Data Quality with Expectations and Validations

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش کاردانی خبره مهندس داده Master Databricks

جزییات دوره

زمان دوره: 2 hours

تعداد ویدیو ها: 25

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 107

امتیاز مرجع: 5 از 5

فایل تمرین: ندارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Raheem ace

لینک کوتاه این دوره

https://donyad.com/d/b9e7df

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

آموزش کاردانی خبره مهندس داده Master Databricks - آخرین آپدیت

دانلود Master Databricks Certified Data Engineer Associate Training new

مقدمه ای بر Databricks و مهندسی داده Introduction to Databricks and Data Engineering

Databricks چیست؟ What is Databricks?

مقدمه ای بر پلتفرم Databricks Lakehouse Introduction to the Databricks Lakehouse Platform

کار با داده ها روی Databricks Working with Data on Databricks

دریافت داده ها و مفاهیم ETL Data Ingestion and ETL Concepts

درک دریاچه دلتا Understanding Delta Lake

منابع داده و فرمت ها در Databricks Data Sources and Formats in Databricks

مدیریت فراداده و کاتالوگ Managing Metadata and Catalogs

تبدیل داده ها با آپاچی اسپارک Transforming Data with Apache Spark

مقدمه ای بر آپاچی اسپارک برای مهندسی داده Introduction to Apache Spark for Data Engineering

کار با DataFrames Working with DataFrames

بهینه سازی تبدیل داده ها Optimizing Data Transformations

آشنایی با Spark SQL Understanding Spark SQL

مدیریت خطوط لوله و گردش کار Managing Pipelines and Workflows

مقدمه ای بر گردش کار مهندسی داده Introduction to Data Engineering Workflows

استفاده از Databricks Jobs برای اتوماسیون خطوط لوله Using Databricks Jobs for Pipeline Automation

تنظیم گردش کار با Databricks Workflow Orchestrating Workflows with Databricks Workflows

مقدمه ای بر وابستگی ها و محرک های کار Introduction to Task Dependencies and Triggers

مدیریت داده ها و حاکمیت Data Management and Governance

مبانی حاکمیت داده Data Governance Fundamentals

پیاده سازی کنترل های دسترسی Implementing Access Controls

پایش و حسابرسی خطوط لوله داده Monitoring and Auditing Data Pipelines

نسخه سازی داده ها و نسب با دریاچه دلتا Data Versioning and Lineage with Delta Lake

بهینه سازی عملکرد و عیب یابی Performance Optimization and Troubleshooting

بهینه سازی پیکربندی کلاستر Optimizing Cluster Configuration

آشنایی با حافظه پنهان و پرش داده ها Understanding Caching and Data Skipping

عیب یابی مشکلات رایج عملکرد Troubleshooting Common Performance Issues

تکنیک های بهینه سازی دریاچه دلتا Delta Lake Optimization Techniques

مفاهیم پیشرفته در مهندسی داده Advanced Concepts in Data Engineering

مقدمه ای بر جریان داده ها با جریان ساخت یافته Introduction to Streaming Data with Structured Streaming

مدیریت داده های دیرهنگام و واترمارکینگ Handling Late Data and Watermarking

تضمین کیفیت داده ها با انتظارات و اعتبارسنجی ها Ensuring Data Quality with Expectations and Validations

نمایش نظرات

https://donyad.com/d/b9e7df