آموزش مهندس داده Databricks: سطح Associate Professional - آخرین آپدیت

دانلود Databricks Data Engineer Associate Professional

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد. این دوره صرفا آزمون یا تمرین می باشد و ویدیو ندارد.

نمونه ویدیویی برای نمایش وجود ندارد.

توضیحات دوره:

دوره متخصص مهندسی داده Databricks: آموزش جامع با Apache Spark

آیا به دنبال ارتقای مهارت‌های خود در زمینه مهندسی داده هستید؟ دوره متخصص مهندسی داده Databricks یک مسیر یادگیری جامع است که متخصصان مهندسی داده را با مهارت‌های لازم برای ساخت، بهینه‌سازی و مدیریت پایپ‌لاین‌های داده مقیاس‌پذیر با استفاده از پلتفرم Databricks مجهز می‌کند. Databricks که بر پایه Apache Spark ساخته شده، یک پلتفرم تحلیلی یکپارچه قدرتمند است که با راهکارهای مبتنی بر ابر مانند AWS، Azure و Google Cloud ادغام می‌شود. این دوره بر ابزارها و مفاهیم ضروری برای مهندسان داده، از جمله پایپ‌لاین‌های داده، یکپارچه‌سازی ابری، بهینه‌سازی عملکرد و استفاده از نوت‌بوک‌های Databricks برای همکاری و توسعه تمرکز دارد.

مروری بر دوره

مهندسی داده یک حوزه به سرعت در حال تکامل است که نیازمند تخصص در مدیریت داده‌های بزرگ، ساخت پایپ‌لاین‌های داده قوی و اطمینان از اجرای کارآمد گردش‌ کارهای پردازش داده در مقیاس بزرگ است. مدرک متخصص مهندسی داده Databricks برای آماده‌سازی شما برای این چالش‌ها با ارائه تجربه عملی با Databricks و Apache Spark طراحی شده است.

در طول دوره، فراگیران دانش عمیقی از اصول مهندسی داده، پلتفرم‌های ابری و فناوری‌های کلیدی مورد نیاز برای ساخت پایپ‌لاین‌های داده قابل اعتماد به دست خواهند آورد. همچنین با تکنیک‌های پیشرفته برای بهینه‌سازی و مدیریت گردش‌ کارهای داده و اطمینان از عملکرد بالا در محیط‌های داده توزیع‌شده آشنا خواهید شد.

این دوره نه تنها در مورد یادگیری Databricks و Apache Spark است، بلکه در مورد درک چگونگی استفاده از این فناوری‌ها در سناریوهای دنیای واقعی است. شما بر روی پروژه‌ها و مطالعات موردی کار خواهید کرد تا تجربه عملی در حل چالش‌های مهندسی داده در زمینه زیرساخت‌های ابری مدرن کسب کنید.

مفاهیم کلیدی پوشش داده شده

1. معرفی Databricks و Apache Spark

این دوره با یک بررسی عمیق از پلتفرم Databricks و Apache Spark، دو فناوری اساسی برای مدیریت داده‌های بزرگ آغاز می‌شود. Databricks، Spark را با ذخیره‌سازی ابری و منابع محاسباتی ادغام می‌کند و مهندسان داده را قادر می‌سازد تا پایپ‌لاین‌های داده را به راحتی بسازند و مقیاس‌بندی کنند.

مروری بر Databricks: در مورد ویژگی‌های پلتفرم Databricks، از جمله نوت‌بوک‌های مشارکتی، محیط توسعه تعاملی و یکپارچگی با پلتفرم‌های مبتنی بر ابر مانند AWS، Azure و Google Cloud، اطلاعات کسب کنید.
مبانی Apache Spark: درک کنید که Apache Spark چگونه کار می‌کند، از جمله اجزای اصلی آن (Spark SQL، Spark Streaming و MLlib) و معماری آن برای محاسبات توزیع‌شده. بینشی در مورد مزایای Spark برای پردازش داده‌های بزرگ و تفاوت آن با فناوری‌های پردازش داده سنتی به دست آورید.

2. ساخت پایپ‌لاین‌های داده

پایپ‌لاین‌های داده، ستون فقرات مهندسی داده مدرن هستند. این بخش بر ایجاد، مدیریت و بهینه‌سازی پایپ‌لاین‌های داده با استفاده از Databricks تمرکز دارد.

گردش‌ کارهای ETL (استخراج، تبدیل، بارگذاری): یاد بگیرید چگونه با استفاده از Databricks، پایپ‌لاین‌های ETL بسازید و داده‌های خام را به مجموعه‌ داده‌های معنادار تبدیل کنید. استخراج داده‌ها از منابع مختلف، اعمال تبدیل‌ها با استفاده از Spark و بارگذاری آن در مقصدهای هدف مانند دریاچه‌های داده یا پایگاه‌های داده رابطه‌ای را پوشش خواهید داد.
دریافت داده: فرآیند دریافت داده در Databricks از منابع مختلف، از جمله سیستم‌های ذخیره‌سازی ابری، پایگاه‌های داده رابطه‌ای و منابع داده جریان را درک کنید. بهترین شیوه‌ها برای مدیریت دریافت داده دسته‌ای و بی‌درنگ را بیاموزید.
تبدیل داده: تجربه عملی با Spark SQL برای پاکسازی، فیلتر و تبدیل داده‌ها کسب کنید. یاد بگیرید چگونه مجموعه‌ داده‌ها را به هم بپیوندید، تجمعات را اعمال کنید و پرس و جوهای پیچیده را برای پردازش داده‌ها در مقیاس بزرگ انجام دهید.

3. Delta Lake و ذخیره‌سازی داده

Delta Lake یک ویژگی قدرتمند Databricks است که به شما امکان می‌دهد یک دریاچه داده قابل اعتماد و مقیاس‌پذیر با پشتیبانی از تراکنش‌های ACID بسازید. این یک پلتفرم یکپارچه برای مدیریت داده‌های دسته‌ای و بی‌درنگ فراهم می‌کند.

مروری بر Delta Lake: مزایای Delta Lake، مانند توانایی آن در مدیریت داده‌های ساختاریافته و بدون ساختار، اعمال طرحواره و مدیریت دریاچه‌های داده در مقیاس بزرگ را بیاموزید.
عملیات Delta Lake: یاد بگیرید که چگونه عملیات اصلی Delta Lake مانند ایجاد جدول، درج، به‌روزرسانی و حذف داده و مدیریت تراکنش‌ها را انجام دهید. بررسی کنید که Delta Lake چگونه سفرهای زمانی و نسخه‌بندی را برای تجزیه و تحلیل داده‌های تاریخی مدیریت می‌کند.
بهینه‌سازی ذخیره‌سازی داده: درک کنید که چگونه با استفاده از ویژگی‌های Delta Lake مانند پارتیشن‌بندی، فشردگی و رد کردن داده‌ها، ذخیره‌سازی داده را بهینه‌سازی کنید تا عملکرد پرس و جو را بهبود بخشید و هزینه‌های ذخیره‌سازی را کاهش دهید.

4. بهینه‌سازی عملکرد

بهینه‌سازی عملکرد پردازش داده در محیط‌های داده بزرگ بسیار مهم است. این بخش تکنیک‌هایی برای بهبود کارایی پایپ‌لاین‌های داده و پرس و جوها را پوشش می‌دهد.

ذخیره‌سازی موقت و پایداری: یاد بگیرید چگونه داده‌ها را در حافظه پنهان کنید تا عملکرد عملیات تکراری بهبود یابد. همچنین مفهوم پایداری و چگونگی استفاده از آن برای مدیریت ذخیره‌سازی داده در Spark را بررسی خواهید کرد.
پارتیشن‌بندی: درک کنید که چگونه پارتیشن‌بندی داده‌ها می‌تواند عملکرد را با فعال کردن پردازش موازی و کاهش جابجایی داده‌ها بهبود بخشد.
تنظیم دقیق کارهای Spark: تجربه عملی با تنظیم دقیق کارهای Spark برای بهبود عملکرد، مانند بهینه‌سازی عملیات تغییر موقعیت، کاهش تعداد مراحل و تنظیم پیکربندی‌ها برای حجم کارهای در مقیاس بزرگ کسب کنید.

5. مدیریت کلاستر

Databricks از کلاسترها برای پردازش داده‌ها در سیستم‌های توزیع‌شده استفاده می‌کند. مدیریت کارآمد کلاسترها یک مهارت کلیدی برای هر مهندس داده‌ای است که در یک محیط داده بزرگ کار می‌کند.

پیکربندی کلاستر: یاد بگیرید که چگونه کلاسترها را در Databricks پیکربندی کنید، اندازه، نوع و محیط زمان اجرای مناسب را برای حجم کارهای خود انتخاب کنید.
بهینه‌سازی کلاستر: بهترین شیوه‌ها برای بهینه‌سازی عملکرد کلاستر، مانند تنظیم تخصیص منابع و مقیاس‌بندی کلاسترها بر اساس تقاضای حجم کار را درک کنید.
نظارت و عیب‌یابی کلاستر: ابزارهایی برای نظارت بر عملکرد کلاستر، شناسایی مشکلات و عیب‌یابی مشکلات مربوط به کلاستر را بررسی کنید تا اطمینان حاصل کنید که پایپ‌لاین‌های داده به طور روان اجرا می‌شوند.

6. امنیت و حکمرانی داده

امنیت و حکمرانی داده برای محافظت از اطلاعات حساس و اطمینان از انطباق با استانداردهای نظارتی ضروری است.

کنترل دسترسی و مجوزها: یاد بگیرید که چگونه کنترل دسترسی مبتنی بر نقش (RBAC) را برای ایمن‌سازی داده‌ها در Databricks پیکربندی کنید و اطمینان حاصل کنید که فقط کاربران مجاز می‌توانند به مجموعه‌ داده‌ها و منابع خاص دسترسی داشته باشند یا آنها را تغییر دهند.
رمزگذاری داده: درک کنید که چگونه داده‌ها را هم در حال انتقال و هم در حالت سکون رمزگذاری کنید تا از اطلاعات حساس محافظت شود و از انطباق با استانداردهای صنعت اطمینان حاصل شود.
ثبت گزارش‌های حسابرسی: یاد بگیرید که چگونه ثبت گزارش‌های حسابرسی را در Databricks پیاده‌سازی کنید تا اقدامات کاربر را ردیابی کنید و از یکپارچگی داده اطمینان حاصل کنید.

7. توسعه مشارکتی با نوت‌بوک‌های Databricks

نوت‌بوک‌های Databricks یک محیط تعاملی برای توسعه و آزمایش کد مهندسی داده فراهم می‌کنند. این نوت‌بوک‌ها از همکاری و کنترل نسخه پشتیبانی می‌کنند و آنها را به یک ابزار کلیدی برای مهندسان داده تبدیل می‌کند.

استفاده از نوت‌بوک‌های Databricks: یاد بگیرید که چگونه نوت‌بوک‌ها را برای نوشتن کد مهندسی داده، ساخت تجسم‌ها و مستندسازی فرآیندها ایجاد، به اشتراک بگذارید و در آنها همکاری کنید.
کنترل نسخه: درک کنید که چگونه از یکپارچه‌سازی Git در نوت‌بوک‌های Databricks برای کنترل نسخه و توسعه مشارکتی استفاده کنید.

8. ادغام با سرویس‌های ابری

Databricks به طور یکپارچه با پلتفرم‌های ابری اصلی مانند AWS، Azure و Google Cloud ادغام می‌شود و یک محیط قدرتمند برای کار با داده‌های مبتنی بر ابر و منابع محاسباتی فراهم می‌کند.

ادغام ذخیره‌سازی ابری: یاد بگیرید که چگونه از سرویس‌های ذخیره‌سازی ابری (مانند S3 یا ADLS) با Databricks برای ذخیره و بازیابی داده‌ها برای پردازش استفاده کنید.
ادغام محاسبات ابری: درک کنید که چگونه Databricks با سرویس‌های محاسبات ابری ادغام می‌شود تا منابع پردازش را به صورت پویا بر اساس تقاضای حجم کار مقیاس‌بندی کند.

پیش نیازها

دانش پایه مهندسی داده: آشنایی با مفاهیمی مانند پایپ‌لاین‌های داده، فرآیندهای ETL (استخراج، تبدیل، بارگذاری) و تبدیل داده.
تجربه با SQL: دانش SQL (زبان پرس و جوی ساخت‌یافته) برای پرس و جو و دستکاری داده‌ها. این برای کار با Databricks و Spark SQL برای تبدیل داده‌ها ضروری است.
آشنایی با پلتفرم‌های ابری: درک اولیه از سرویس‌های ابری (مانند AWS، Azure یا Google Cloud)، زیرا Databricks با این پلتفرم‌ها برای ذخیره‌سازی و منابع محاسباتی ادغام می‌شود.

تمرین ها و آزمونها

آزمون‌های تمرینی Practice Tests

آزمون Databricks Data Engineer Associate Professional Databricks Data Engineer Associate Professional
آزمون Databricks Data Engineer Associate Professional Databricks Data Engineer Associate Professional