مهم قبل از ثبت نام:
این دوره برای تکمیل آمادگی شما برای امتحانات گواهینامه طراحی شده است، اما جایگزینی برای مواد رسمی فروشنده نیست. توسط فروشنده گواهی تایید نشده است، و شما مواد آموزشی رسمی گواهینامه یا کوپن را به عنوان بخشی از این دوره دریافت نخواهید کرد.
پتانسیل کامل مهندسی داده را با Databricks باز کنید، پلت فرمی پیشرفته که برای مدیریت خطوط لوله داده در مقیاس بزرگ، فرآیندهای ETL و تجزیه و تحلیل پیشرفته طراحی شده است. این دوره جامع برای مهندسان داده، تحلیلگران و هر کسی که به دنبال افزایش مهارت های خود در ایجاد گردش کار داده های کارآمد و مقیاس پذیر با استفاده از پلت فرم Databricks Lakehouse است، عالی است.
چه در Databricks تازه کار باشید و چه به دنبال تعمیق درک خود باشید، این دوره شما را از طریق مفاهیم اصلی و تکنیک های پیشرفته مورد نیاز برای برتری در مهندسی داده راهنمایی می کند.
ما با معرفی Databricks و اجزای کلیدی آن شروع میکنیم و توضیح میدهیم که چگونه وظایف مهندسی داده را ساده میکند. با معماری نوآورانه Databricks Lakehouse آشنا خواهید شد که مزایای دریاچه های داده و انبارهای داده را ادغام می کند و رویکردی واحد برای مدیریت داده و تجزیه و تحلیل ارائه می دهد.
همانطور که در کار با دادهها عمیقتر میشویم، فرآیندهای دریافت داده و ETL (Extract, Transform, Load) را بررسی میکنید و بر بهترین شیوهها برای تهیه و پردازش دادهها مسلط میشوید. با Delta Lake، لایه ذخیرهسازی قدرتمندی که قابلیت اطمینان و عملکرد دادهها را در Databricks افزایش میدهد، تجربه عملی کسب خواهید کرد. ما فرمتها و منابع دادههای مختلف را پوشش میدهیم و اطمینان میدهیم که در مدیریت فرمتهایی مانند Parquet، CSV، و JSON و همچنین مدیریت ابرداده با Hive Metastore و Databricks Catalog به خوبی مسلط هستید.
بخش کلیدی دوره بر Apache Spark، موتور پشت Databricks تمرکز دارد. متوجه خواهید شد که چگونه Spark پردازش داده ها را ساده می کند و تغییرات سریع و مقیاس پذیر را امکان پذیر می کند. شما با DataFrames برای دستکاری داده ها کار خواهید کرد، Spark SQL را برای پرس و جو و تبدیل داده ها کاوش خواهید کرد، و تکنیک های بهینه سازی را یاد خواهید گرفت که پردازش کارآمد داده را تضمین می کند، مانند pushdown predicate و I/O بردار.
با حرکت به سمت مدیریت خط لوله، این دوره مفاهیم اساسی مانند گردش کار مهندسی داده را پوشش میدهد و شما یاد خواهید گرفت که چگونه این گردشها را با استفاده از Databricks Jobs خودکار کنید. ما ابزارهای تنظیم گردش کار Databricks را معرفی خواهیم کرد و به شما آموزش می دهیم که چگونه وابستگی ها و محرک های کار را تنظیم کنید تا از اجرای یکپارچه خط لوله اطمینان حاصل کنید.
مدیریت و حاکمیت داده در هر پروژه مهندسی داده حیاتی است. این دوره به شما اصول حاکمیت داده، از جمله اجرای کنترل دسترسی مبتنی بر نقش (RBAC) برای مدیریت مجوزها را به شما آموزش می دهد. همچنین میآموزید که چگونه خطوط لوله دادههای خود را برای عملکرد نظارت و ممیزی کنید، نسخهسازی دادهها را حفظ کنید، و خط و نسب را با استفاده از Delta Lake دنبال کنید، و از یکپارچگی دادهها در طول چرخه عمر اطمینان حاصل کنید.
بهینه سازی عملکرد یکی دیگر از زمینه های مهمی است که ما بررسی خواهیم کرد. شما یاد خواهید گرفت که چگونه خوشه ها را برای بارهای کاری مختلف پیکربندی کنید، از حافظه پنهان و پرش داده ها برای بهبود عملکرد پرس و جو و عیب یابی مشکلات رایج عملکرد استفاده کنید. تکنیکهای پیشرفته بهینهسازی دریاچه دلتا، مانند OPTIMIZE و ZORDER، به شما کمک میکنند تا عملکرد عملیات دادهتان را بیشتر کنید.
در نهایت، ما به موضوعات پیشرفتهای مانند پردازش جریانی داده با جریان ساختیافته در Databricks، رسیدگی به دادههای دیررس و تضمین کیفیت داده از طریق اعتبارسنجی و انتظارات میپردازیم. این تضمین میکند که به خوبی برای چالشهای دادههای همزمان در محیطهای داده پرسرعت امروزی آماده هستید.
در پایان این دوره، شما به مهارتهایی برای ساخت، بهینهسازی و مدیریت خطوط لوله داده مقیاسپذیر، تسلط بر Databricks و Apache Spark و اجرای بهترین شیوهها در مدیریت داده، تنظیم عملکرد، و جریان مجهز خواهید شد.
چه در حال آماده شدن برای حرفه ای در زمینه مهندسی داده باشید یا به دنبال بهبود تخصص خود باشید، این دوره شما را در مسیر موفقیت قرار می دهد.
متشکرم
توانمندسازی ذهن ها و برانگیختن کنجکاوی
نمایش نظرات