دسترسی سریع:

مسیر:

صفحه اصلی

🔔 با توجه به بهبود نسبی اینترنت، آماده‌سازی دوره‌ها آغاز شده است. به دلیل تداوم برخی اختلالات، بارگذاری دوره‌ها ممکن است با کمی تأخیر انجام شود. مدت اشتراک‌های تهیه‌شده محفوظ است.

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش مهارت‌های مهندس حرفه‌ای داده در دیتابریکس - آخرین آپدیت

دانلود Databricks Professional Data Engineer Skills

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد. این دوره صرفا آزمون یا تمرین می باشد و ویدیو ندارد.

نمونه ویدیویی برای نمایش وجود ندارد.

توضیحات دوره:

Databricks Professional Data Engineer: متخصص خطوط لوله داده مقیاس پذیر و راه حل های داده پیشرفته

دوره Databricks Professional Data Engineer به منظور ارائه دانش و مهارت های عملی مورد نیاز برای برتری مهندسان داده در چشم انداز مدرن داده طراحی شده است. این دوره بر ساخت، بهینه سازی و مدیریت خطوط لوله داده مقیاس پذیر با استفاده از Databricks و Apache Spark تمرکز دارد و متخصصان را قادر می سازد تا راه حل های پیچیده داده را طراحی کنند که نیازهای محیط های داده بزرگ امروزی را برآورده کند. Databricks به عنوان یک پلتفرم پیشرو در صنعت برای پردازش داده های بزرگ، قدرت Apache Spark، محاسبات ابری و Delta Lake را گرد هم می آورد تا گردش کار داده قابل اعتماد و با کارایی بالا ارائه دهد.

چه یک مهندس داده با تجربه باشید و چه در حال انتقال به این زمینه، این دوره پوشش عمیقی از مفاهیم پیشرفته مهندسی داده، از جمله پردازش داده های بلادرنگ، یکپارچه سازی ابری، تنظیم عملکرد و حاکمیت داده را ارائه می دهد. این دوره از طریق آزمایشگاه های عملی، تمرین های کاربردی و مطالعات موردی واقعی، درک جامع و کاربردی از نحوه استفاده از Databricks برای پردازش داده های بزرگ ارائه می دهد.

مروری بر دوره

دوره Databricks Professional Data Engineer فراتر از مفاهیم مقدماتی می رود و به پیچیدگی های کار با Databricks و Spark در اکوسیستم های داده بزرگ و مبتنی بر ابر می پردازد. شما یاد خواهید گرفت که چگونه خطوط لوله داده بهینه شده ایجاد کنید، با منابع ذخیره سازی و محاسباتی ابری ادغام شوید، از Delta Lake برای مدیریت قابل اعتماد داده استفاده کنید و گردش کار داده را برای عملکرد و مقیاس پذیری تنظیم کنید. در پایان دوره، شما مجهز خواهید شد تا با چالش های پیچیده مهندسی داده مقابله کنید و راه حل های داده با کیفیت بالا بسازید که از تصمیم گیری مبتنی بر داده در سازمان شما پشتیبانی کند.

مفاهیم کلیدی تحت پوشش

Databricks پیشرفته و Apache Spark درک جامع از Apache Spark برای یک مهندس داده اساسی است و این دوره پوشش عمیقی از قابلیت های پیشرفته Spark ارائه می دهد. شما یاد خواهید گرفت که چگونه با RDD (مجموعه داده های توزیع شده مقاوم)، DataFrames و Datasets کار کنید، از جمله ملاحظات مربوط به عملکرد و استراتژی های بهینه سازی آنها. علاوه بر این، این دوره به مدیریت و تنظیم خوشه می پردازد و به شما کمک می کند عملکرد مشاغل Spark را در Databricks به حداکثر برسانید. موضوعات کلیدی عبارتند از:
- درک معماری و موتور اجرایی Spark
- بهینه سازی عملکرد و تکنیک های تنظیم شغل
- مدیریت موثر خوشه های Spark برای پردازش داده های مقیاس پذیر
ساخت خطوط لوله داده پیچیده یکی از مسئولیت های اصلی یک مهندس داده ساخت خطوط لوله داده است. این دوره ایجاد گردش کار پیچیده و کارآمد ETL (استخراج، تبدیل، بارگذاری) را با استفاده از Databricks پوشش می دهد. شما به کاوش در تبدیل داده، زمانبندی گردش کار و گنجاندن رسیدگی به خطا و تحمل خطا در خطوط لوله خود خواهید پرداخت. علاوه بر این، این دوره شما را با Spark Streaming برای پردازش داده های بلادرنگ آشنا می کند و شما را قادر می سازد تا خطوط لوله ای بسازید که هم داده های دسته ای و هم جریان را مدیریت کنند. موضوعات عبارتند از:
- طراحی و ساخت خطوط لوله ETL مقیاس پذیر
- استفاده از نوت بوک های Databricks برای هماهنگی خط لوله
- پیاده سازی پردازش داده های بلادرنگ با Spark Streaming
- ادغام منابع داده شخص ثالث (به عنوان مثال، Kafka، Kinesis، Azure Event Hubs)
Delta Lake و مدیریت داده Delta Lake بخشی جدایی ناپذیر از پلتفرم Databricks است و دریاچه های داده قابل اعتماد و با کارایی بالا را با تراکنش های ACID (اتمی، سازگاری، انزوا، دوام) فعال می کند. این دوره شما را با معماری Delta Lake آشنا می کند و نحوه مدیریت کارآمد مجموعه داده های بزرگ در عین اطمینان از کیفیت داده را پوشش می دهد. شما یاد خواهید گرفت که چگونه اجرای طرحواره، سفر در زمان و سایر ویژگی های قدرتمند Delta Lake را برای مدیریت داده پیاده سازی کنید. موضوعات کلیدی عبارتند از:
- درک مبانی Delta Lake
- پیاده سازی اجرای طرحواره و تکامل
- انجام سفر در زمان با Delta Lake
- بهینه سازی عملکرد Delta Lake (به عنوان مثال، پارتیشن بندی، فرمت های فایل)
بهینه سازی و تنظیم عملکرد با بزرگ شدن و پیچیدگی خطوط لوله داده، عملکرد به یک نکته مهم تبدیل می شود. در این بخش، یاد خواهید گرفت که چگونه عملکرد مشاغل Spark و خوشه های Databricks خود را بهینه کنید. شما تکنیک های مختلف تنظیم عملکرد مانند پارتیشن بندی، ذخیره سازی و مدیریت منابع را بررسی خواهید کرد و یاد خواهید گرفت که چگونه تنگناهای عملکرد را عیب یابی و برطرف کنید. موضوعات عبارتند از:
- بهینه سازی عملکرد شغل Spark از طریق پیکربندی های مناسب
- درک و مدیریت پارتیشن ها و جابجایی Spark
- تنظیم خوشه های Databricks برای عملکرد بالا
- بهترین شیوه ها برای مدیریت حافظه و زمانبندی شغل
ادغام و مدیریت ابری پلتفرم های ابری مانند AWS، Azure و Google Cloud به طور فزاینده ای در گردش کار مهندسی داده مدرن نقش محوری دارند. در این دوره، یاد خواهید گرفت که چگونه Databricks را با خدمات ابری برای قابلیت های ذخیره سازی و محاسباتی مقیاس پذیر ادغام کنید. این دوره نحوه اتصال Databricks به سیستم های ذخیره سازی مبتنی بر ابر مانند Amazon S3، Azure Blob Storage و Google Cloud Storage و نحوه استفاده از منابع محاسباتی ابری برای مقیاس بندی مشاغل پردازش داده خود را پوشش می دهد. همچنین بهترین شیوه ها برای امنیت ابری و بهینه سازی هزینه را یاد خواهید گرفت. موضوعات عبارتند از:
- ادغام Databricks با ذخیره سازی ابری (به عنوان مثال، AWS S3، Azure Blob)
- مدیریت منابع محاسباتی ابری برای مشاغل Databricks
- اطمینان از امنیت داده و انطباق در ابر
- بهینه سازی هزینه ها و عملکرد هنگام استفاده از خدمات ابری
حاکمیت و امنیت داده حاکمیت داده برای حفظ یکپارچگی، امنیت و انطباق خطوط لوله داده ضروری است. این بخش از دوره بر اجرای استراتژی های حاکمیت داده در Databricks، مانند ممیزی، ردیابی نسب و کنترل دسترسی تمرکز دارد. شما یاد خواهید گرفت که چگونه از حریم خصوصی و امنیت داده ها اطمینان حاصل کنید، کنترل دسترسی مبتنی بر نقش (RBAC) را پیاده سازی کنید و از رمزگذاری برای داده های حساس استفاده کنید. موضوعات عبارتند از:
- پیاده سازی سازوکارهای نسب داده و ممیزی
- پیکربندی کنترل دسترسی مبتنی بر نقش (RBAC) برای محافظت از داده
- رمزگذاری داده ها برای ذخیره سازی و حمل و نقل
- اطمینان از انطباق با مقررات (به عنوان مثال، GDPR، HIPAA)
همکاری و نظارت همکاری موثر برای تیم های مهندسی داده مدرن ضروری است. این دوره به شما نشان می دهد که چگونه از نوت بوک های Databricks برای همکاری با اعضای تیم و به اشتراک گذاری کد، بینش و نتایج استفاده کنید. همچنین یاد خواهید گرفت که چگونه عملکرد خطوط لوله داده خود را نظارت و ردیابی کنید، هشدارهایی برای خرابی های شغلی یا ناهنجاری ها تنظیم کنید و هرگونه مشکلی را که پیش می آید عیب یابی کنید. موضوعات کلیدی عبارتند از:
- استفاده از نوت بوک های Databricks برای همکاری و کنترل نسخه
- تنظیم نظارت و ثبت رویدادها برای خطوط لوله داده
- عیب یابی و رفع خطاها در گردش کار داده
- ایجاد هشدارهای خودکار و اعلان ها برای مسائل بحرانی

پیش نیازها

دانش پایه مهندسی داده: آشنایی با مفاهیمی مانند خطوط لوله داده، فرآیندهای ETL (استخراج، تبدیل، بارگذاری) و تبدیل داده.
تجربه با SQL: دانش SQL (زبان پرس و جو ساخت یافته) برای پرس و جو و دستکاری داده ها. این برای کار با Databricks و Spark SQL برای تبدیل داده ها ضروری است.
آشنایی با پلتفرم های ابری: درک اساسی از خدمات ابری (مانند AWS، Azure یا Google Cloud)، زیرا Databricks با این پلتفرم ها برای ذخیره سازی و منابع محاسباتی ادغام می شود.

تمرین ها و آزمونها

آزمون‌های تمرینی Practice Tests

مهارت‌های مهندس حرفه‌ای داده Databricks Databricks Professional Data Engineer Skills
مهارت‌های مهندس حرفه‌ای داده Databricks Databricks Professional Data Engineer Skills