به عنوان بخشی از این دوره، تمام مهندسی داده را با استفاده از فناوری مبتنی بر پلتفرم ابری به نام Databricks یاد خواهید گرفت.
درباره مهندسی داده
مهندسی داده چیزی جز پردازش داده ها بسته به نیازهای پایین دست ما نیست. ما باید خطوط لوله مختلفی مانند خط لوله دسته ای، خط لوله جریان و غیره را به عنوان بخشی از مهندسی داده بسازیم. تمام نقش های مربوط به پردازش داده ها تحت مهندسی داده ادغام شده است. به طور متعارف، آنها به عنوان توسعه ETL، توسعه انبار داده و غیره شناخته می شوند.
درباره Databricks
Databricks محبوبترین پشته فناوری مهندسی داده مبتنی بر پلتفرم ابری است. آنها مرتکبان پروژه آپاچی اسپارک هستند. زمان اجرای Databricks Spark را برای افزایش کشش ابر فراهم می کند. با Databricks، شما برای چیزی که استفاده می کنید هزینه پرداخت می کنید. در طی یک دوره زمانی، آنها با ارائه تمام ویژگی هایی که برای BI سنتی و همچنین AI ML مورد نیاز است، ایده Lakehouse را مطرح کردند. در اینجا برخی از ویژگی های اصلی Databricks آمده است.
Spark - محاسبات توزیع شده
دریاچه دلتا - عملیات CRUD را انجام دهید. در درجه اول برای ایجاد قابلیت هایی مانند درج، به روز رسانی و حذف داده ها از فایل ها در Data Lake استفاده می شود.
cloudFiles - فایلها را به صورت افزایشی و به کارآمدترین روش با استفاده از ویژگیهای ابری دریافت کنید.
Databricks SQL - یک رابط مبتنی بر فوتون که برای اجرای پرسوجوهای ارسال شده برای گزارشدهی و تجسم توسط ابزارهای گزارشدهی بهخوبی تنظیم شده است. همچنین برای تجزیه و تحلیل Ad-hoc استفاده می شود.
جزئیات دوره
به عنوان بخشی از این دوره، شما مهندسی داده را با استفاده از Databricks یاد خواهید گرفت.
شروع با Databricks
تنظیم محیط توسعه محلی برای توسعه برنامه های مهندسی داده با استفاده از Databricks
استفاده از Databricks CLI برای مدیریت فایلها، مشاغل، خوشهها و غیره مربوط به برنامههای مهندسی داده
چرخه توسعه برنامه Spark برای ساخت برنامه های مهندسی داده
مشاغل و خوشههای Databricks
استقرار و اجرای مشاغل مهندسی داده در خوشه های شغلی Databricks به عنوان برنامه پایتون
استقرار و اجرای مشاغل مهندسی داده بر روی خوشه های شغلی Databricks با استفاده از نوت بوک
به دریاچه دلتا با استفاده از Dataframes در پلتفرم Databricks شیرجه بزنید
با استفاده از Spark SQL در Databricks Platform به دریاچه دلتا شیرجه بزنید
ساخت خطوط لوله مهندسی داده با استفاده از جریان ساختار یافته اسپارک روی خوشه های آجری داده
پردازش افزایشی فایل با استفاده از Spark Structured Streaming با استفاده از Databricks Auto Loader cloudFiles
نمای کلی از حالتهای کشف فایل cloudFiles AutoLoader - فهرست دایرکتوری و اعلانهای فایل
تفاوتهای بین حالتهای کشف فایل cloudFiles Auto Loader - فهرست فهرست و اعلانهای فایل
تفاوتهای بین جریان سنتی Spark Structured و استفاده از Databricks Auto Loader cloudFiles برای پردازش تدریجی فایل.
نمای کلی Databricks SQL برای تجزیه و تحلیل داده و گزارش.
در هفتههای آینده چند ماژول دیگر مرتبط با Pyspark، Spark with Scala، Spark SQL و Streaming Pipelines اضافه خواهیم کرد.
مخاطب مورد نظر
در اینجا مخاطبان مورد نظر برای این دوره پیشرفته هستند.
برنامهنویسان با تجربه برای کسب تخصص مرتبط با مهندسی داده با دانش و تجربه قبلی Spark.
مهندسین داده باتجربه برای کسب مهارت کافی برای افزودن Databricks به نمایه خود.
تستکنندهها برای بهبود قابلیتهای آزمایشی خود در رابطه با برنامههای مهندسی داده با استفاده از Databricks.
پیش نیازها
تدارکات
کامپیوتر با پیکربندی مناسب (حداقل 4 گیگابایت رم، اما 8 گیگابایت بسیار مورد نظر است)
دو هسته مورد نیاز است و چهار هسته بسیار مورد نظر است
مرورگر کروم
اینترنت پرسرعت
حساب معتبر AWS
حساب Databricks معتبر (حساب Databricks رایگان کافی نیست)
به عنوان مهندس داده به خصوص با استفاده از اسپارک Apache
تجربه کنیددانش در مورد برخی از مفاهیم ابر مانند ذخیره سازی، کاربران، نقش ها و غیره.
هزینه های مرتبط
به عنوان بخشی از آموزش، فقط مطالب را دریافت خواهید کرد. باید روی حساب ابری خود یا شرکتی و حساب Databricks تمرین کنید.
شما باید از هزینههای مربوط به AWS یا Azure مراقبت کنید.
شما باید از هزینه های Databricks مرتبط مراقبت کنید.
رویکرد آموزشی
در اینجا جزئیات مربوط به رویکرد آموزشی آمده است.
مطالب مرجع، تکههای کد و ویدیوهای ارائهشده بهعنوان بخشی از Udemy بهصورت خودکار تنظیم میشود.
برای تمرین تمام ویژگی های اصلی Databricks، باید در محیط Databricks خود ثبت نام کنید.
ما توصیه می کنیم هر هفته 2 ماژول را با صرف 4 تا 5 ساعت در هفته تکمیل کنید.
توصیه میشود که از تمام وظایف مراقبت کنید تا بتوان تجربه واقعی از Databricks را بدست آورد.
پشتیبانی از طریق Udemy Q A ارائه خواهد شد.
در اینجا طرح کلی دوره دقیق است.
شروع به کار با Databricks در Azure
به عنوان بخشی از این بخش، جزئیات مربوط به ثبت نام در Azure و راه اندازی کلاستر Databricks در Azure را بررسی خواهیم کرد.
شروع به کار با Databricks در Azure
برای حساب Azure ثبت نام کنید
ورود به سیستم وارد شوید و سهمیه ها را برای vCPU های منطقه ای در Azure افزایش دهید
ایجاد فضای کاری Azure Databricks
راه اندازی Azure Databricks Workspace یا Cluster
مطالعه سریع رابط کاربری Azure Databricks
خوشه تک نود Azure Databricks را ایجاد کنید
آپلود داده ها با استفاده از رابط کاربری Azure Databricks
نمای کلی ایجاد نوت بوک و اعتبارسنجی فایل ها با استفاده از Azure Databricks
برنامه Spark را با استفاده از Azure Databricks Notebook توسعه دهید
Spark Jobs را با استفاده از Azure Databricks Notebook اعتبار سنجی کنید
صادرات و واردات نوت بوک های Azure Databricks
خاتمه Azure Databricks Cluster و حذف پیکربندی
با حذف گروه منابع، فضای کاری Azure Databricks را حذف کنید
Azure Essentials برای Databricks - Azure CLI
به عنوان بخشی از این بخش، جزئیات مربوط به راه اندازی Azure CLI برای مدیریت منابع Azure با استفاده از دستورات مربوطه را بررسی خواهیم کرد.
Azure Essentials برای Databricks - Azure CLI
Azure CLI با استفاده از Azure Portal Cloud Shell
شروع به کار با Azure CLI در مک
شروع به کار با Azure CLI در ویندوز
گرم کردن با Azure CLI - نمای کلی
گروه منابع را با استفاده از Azure CLI ایجاد کنید
ایجاد حساب ذخیره سازی ADLS با در گروه منابع
کانتینر را به عنوان بخشی از حساب ذخیرهسازی اضافه کنید
نمای کلی آپلود داده ها در سیستم فایل یا کانتینر ADLS
Setup Data Set به صورت محلی برای آپلود در ADLS File System یا Container
دایرکتوری محلی را در سیستم فایل یا کانتینر Azure ADLS آپلود کنید
حساب ذخیره سازی Azure ADLS را با استفاده از Azure CLI حذف کنید
گروه منابع Azure را با استفاده از Azure CLI حذف کنید
برای دسترسی به فایلها از Azure Blob Storage ADLS را روی Azure Databricks نصب کنید
به عنوان بخشی از این بخش، جزئیات مربوط به نصب Azure Data Lake Storage (ADLS) را در Azure Databricks Cluster بررسی خواهیم کرد.
ADLS را روی Azure Databricks نصب کنید - مقدمه
از فضای کاری Azure Databricks اطمینان حاصل کنید
راه اندازی Databricks CLI در مک یا ویندوز با استفاده از محیط مجازی پایتون
Databricks CLI را برای فضای کاری جدید Azure Databricks پیکربندی کنید
یک برنامه Azure Active Directory را ثبت کنید
Databricks Secret را برای AD Application Client Secret ایجاد کنید
ایجاد حساب ذخیره سازی ADLS
نقش IAM در حساب ذخیره سازی را به برنامه Azure AD اختصاص دهید
تنظیم مجموعه داده DB خرده فروشی
کانتینر یا سیستم فایل ADLS ایجاد کنید و داده ها را آپلود کنید
Databricks Cluster را برای نصب ADLS راه اندازی کنید
حساب ذخیره سازی ADLS را روی Azure Databricks نصب کنید
نقطه کوه ADLS را در خوشه های Azure Databricks اعتبار سنجی کنید
نقطه اتصال را از Databricks جدا کنید
حذف گروه منبع Azure مورد استفاده برای نصب ADLS در Azure Databricks
تنظیم محیط توسعه محلی برای Databricks
به عنوان بخشی از این بخش، جزئیات مربوط به راه اندازی محیط توسعه محلی برای Databricks را با استفاده از ابزارهایی مانند Pycharm، Databricks dbconnect، Databricks dbutils و غیره بررسی خواهیم کرد.
تنظیم خوشه Databricks Single Node
Databricks Connect را نصب کنید
پیکربندی Databricks Connect
ادغام Pycharm با Databricks Connect
Cluster Databricks را با کاتالوگ چسب ادغام کنید
سطل AWS s3 را راه اندازی کنید و مجوزها را اعطا کنید
نصب سطل های s3 در خوشه های Databricks
استفاده از Databricks dbutils از IDEهایی مانند Pycharm
استفاده از Databricks CLI
به عنوان بخشی از این بخش، مروری بر Databricks CLI برای تعامل با Databricks File System یا DBFS خواهیم داشت.
مقدمه ای بر Databricks CLI
نصب و پیکربندی Databricks CLI
تعامل با سیستم فایل Databricks با استفاده از Databricks CLI
دریافت جزئیات کلاستر Databricks با استفاده از Databricks CLI
Databricks Jobs and Cluster
به عنوان بخشی از این بخش، جزئیات مربوط به Databricks Jobs و Cluster را بررسی خواهیم کرد.
مقدمه ای بر مشاغل و خوشه های Databricks
ایجاد استخر در پلتفرم Databricks
ایجاد Cluster در Azure Databricks
درخواست افزایش سهمیه CPU در Azure
ایجاد شغل در Databricks
ارسال مشاغل با استفاده از Databricks Job Cluster
ایجاد Pool در Databricks
اجرای کار با استفاده از خوشه Databricks تعاملی متصل به Pool
اجرای کار با استفاده از Databricks Job Cluster متصل به Pool
تمرین - با استفاده از خوشه تعاملی Databricks، برنامه را به عنوان شغل ارسال کنید
استقرار و اجرای Spark Applications بر روی Databricks
به عنوان بخشی از این بخش، جزئیات مربوط به استقرار Spark Applications در Databricks Cluster و همچنین اجرای آن برنامه ها را بررسی خواهیم کرد.
PyCharm را برای Databricks آماده کنید
مجموعه های داده را آماده کنید
فایل ها را به ghactivity منتقل کنید
کد Refactor برای Databricks
تأیید اعتبار داده ها با استفاده از Databricks
تنظیم مجموعه داده برای استقرار تولید
با استفاده از Databricks dbutils به فراداده فایل دسترسی پیدا کنید
ساخت بسته قابل توسعه برای Databricks
اجرای مشاغل با استفاده از Databricks Web UI
جزئیات شغل و اجرا را با استفاده از Databricks CLI دریافت کنید
ارسال مشاغل Databricks با استفاده از CLI
راه اندازی و اعتبارسنجی Databricks Client Library
بازنشانی کار با استفاده از Databricks Jobs API
Databricks Job را به صورت برنامه نویسی با استفاده از پایتون اجرا کنید
اعتبار سنجی دقیق داده ها با استفاده از دفترچه یادداشت Databricks
Spark Jobs را با استفاده از Notebook اجرا و اجرا کنید
به عنوان بخشی از این بخش، جزئیات مربوط به استقرار Spark Applications در Databricks Cluster و همچنین اجرای آن برنامه ها با استفاده از Databricks Notebook را بررسی خواهیم کرد.
Modularizing Databricks Notebook
اجرای کار با استفاده از Databricks Notebook
برنامه Refactor به عنوان نوت بوک Databricks
Notebook را با استفاده از Databricks Development Cluster اجرا کنید
شیرجه عمیق به دریاچه دلتا با استفاده از Spark Data Frames در Databricks
به عنوان بخشی از این بخش، با استفاده از Spark Data Frames، تمام جزئیات مهم مربوط به Databricks Delta Lake را بررسی خواهیم کرد.
معرفی دریاچه دلتا با استفاده از Spark Data Frames در Databricks
ایجاد فریمهای داده Spark برای دریاچه دلتا روی Databricks
نوشتن Spark Data Frame با استفاده از Delta Format در Databricks
به روز رسانی داده های موجود با استفاده از قالب دلتا در Databricks
داده های موجود را با استفاده از قالب دلتا در Databricks حذف کنید
ادغام یا اضافه کردن داده ها با استفاده از قالب دلتا در Databricks
حذف با استفاده از Merge in Delta Lake در Databricks
در بازیابی Snapshot با استفاده از Delta Logs در Databricks به آن اشاره کنید
حذف فایل های دلتا غیر ضروری با استفاده از Vacuum on Databricks
تراکم فایلهای دریاچه دلتا روی Databricks
شیرجه عمیق به دریاچه دلتا با استفاده از Spark SQL در Databricks
به عنوان بخشی از این بخش، تمام جزئیات مهم مربوط به Databricks Delta Lake را با استفاده از Spark SQL بررسی خواهیم کرد.
معرفی دریاچه دلتا با استفاده از Spark SQL در Databricks
جدول دریاچه دلتا را با استفاده از Spark SQL در Databricks ایجاد کنید
درج دادهها به جدول دریاچه دلتا با استفاده از Spark SQL در Databricks
به روز رسانی داده ها در Delta Lake Table با استفاده از Spark SQL در Databricks
داده ها را از جدول Delta Lake با استفاده از Spark SQL در Databricks حذف کنید
ادغام یا اضافه کردن داده ها در Delta Lake Table با استفاده از Spark SQL در Databricks
استفاده از تابع Merge روی Delta Lake Table با استفاده از Spark SQL در Databricks
نقطه یابی در Snapshot Recovery با استفاده از Delta Lake Table با استفاده از Spark SQL در Databricks
جروبرقی جداول دریاچه دلتا با استفاده از Spark SQL در Databricks
تراکم جداول دریاچه دلتا با استفاده از Spark SQL روی Databricks
دسترسی به پایانه کلاستر Databricks از طریق وب و همچنین SSH
به عنوان بخشی از این بخش، نحوه دسترسی به پایانه مربوط به Databricks Cluster را از طریق وب و همچنین SSH خواهیم دید.
ترمینال وب را در Databricks Admin Console فعال کنید
ترمینال وب را برای Databricks Cluster راه اندازی کنید
SSH را برای Databricks Cluster Driver Node
تنظیم کنیداتصال SSH را به گره درایور Databricks در AWS تأیید کنید
محدودیت های SSH و مقایسه با ترمینال وب مربوط به خوشه های Databricks
نصب نرم افزارها بر روی Databricks Cluster با استفاده از اسکریپت های init
به عنوان بخشی از این بخش، نحوه راهاندازی خوشههای Databricks را با نصب کتابخانههای شخص ثالث مربوطه برای برنامههای خود خواهیم دید.
gen_logs را در Databricks Cluster تنظیم کنید
نمای کلی اسکریپت های Init برای کلاسترهای Databricks
اسکریپت برای نصب نرم افزار از git در Databricks Cluster ایجاد کنید
اسکریپت init را در مکان dbfs کپی کنید
خوشه مستقل Databricks را با اسکریپت init ایجاد کنید
خلاصه سریع جریان ساختار یافته Spark
به عنوان بخشی از این بخش، خلاصهای از جریان Spark Structured دریافت میکنیم.
Netcat را در Databricks Driver Node تأیید کنید
پیام های گزارش را به سرور وب Netcat در Databricks Driver Node فشار دهید
خواندن گزارشهای وب سرور با استفاده از Spark Structured Streaming
نوشتن دادههای جریانی در فایلها
بارهای افزایشی با استفاده از جریان ساختار یافته Spark در Databricks
به عنوان بخشی از این بخش، نحوه انجام بارهای افزایشی را با استفاده از جریان ساختاری Spark در Databricks خواهیم فهمید.
نمای کلی جریان ساختار یافته Spark
مراحل پردازش اطلاعات افزایشی در Databricks
Cluster Databricks را با نمایه نمونه پیکربندی کنید
آپلود فایلهای GHAArchive به AWS s3 با استفاده از Databricks Notebook
دادههای JSON را با استفاده از Spark Structured Streaming در Databricks بخوانید
با استفاده از Trigger Once on Databricks با استفاده از قالب فایل Delta بنویسید
دادههای GHAArchive را در فایلهای دلتا با استفاده از Spark on Databricks تجزیه و تحلیل کنید
فایلهای جدید GHActivity JSON را به Databricks اضافه کنید
بارگذاری تدریجی داده ها در جدول هدف در Databricks
تأیید بار افزایشی روی Databricks
موارد داخلی پردازش فایل جریانی ساختاریافته Spark روی Databricks
بارهای افزایشی با استفاده از AutoLoader Cloud Files در Databricks
به عنوان بخشی از این بخش، نحوه اجرای بارهای افزایشی با استفاده از autoLoader cloudFiles در Databricks Cluster را خواهیم دید.
نمای کلی AutoLoader cloudFiles در Databricks
فایلهای GHAArchive را در s3 در Databricks آپلود کنید
داده ها را با استفاده از AutoLoader cloudFiles در Databricks بنویسید
فایلهای جدید GHActivity JSON را به Databricks اضافه کنید
بارگذاری تدریجی داده ها در جدول هدف در Databricks
فایلهای جدید GHActivity JSON را به Databricks اضافه کنید
نمای کلی مدیریت رویدادهای S3 با استفاده از خدمات AWS در Databricks
نقش IAM را برای اعلانهای فایل cloudFiles در Databricks پیکربندی کنید
بارگیری افزایشی با استفاده از اعلانهای فایل cloudFiles در Databricks
سرویسهای AWS را برای اعلانهای رویداد cloudFiles در Databricks مرور کنید
فراداده ایجاد شده برای CloudFiles Checkpointing در Databricks را بررسی کنید
نمای کلی Databricks SQL Clusters
به عنوان بخشی از این بخش، مروری بر Databricks SQL Clusterها خواهیم داشت.
نمای کلی Databricks SQL Platform - مقدمه
First Query را با استفاده از ویرایشگر SQL Databricks SQL اجرا کنید
نمای کلی داشبوردها با استفاده از Databricks SQL
نمای کلی Databricks SQL Data Explorer برای بررسی پایگاههای داده و جداول متاستور
از Databricks SQL Editor برای توسعه اسکریپت ها یا پرس و جوها استفاده کنید
فراداده جداول را با استفاده از Databricks SQL Platform بررسی کنید
نمای کلی بارگیری داده ها در جداول retail_db
Databricks CLI را پیکربندی کنید تا داده ها را به بستر Databricks منتقل کند
دادههای JSON را با استفاده از Databricks CLI در DBFS کپی کنید
دادههای JSON را با استفاده از Spark API تجزیه و تحلیل کنید
شماهای جدول دلتا را با استفاده از Spark API تجزیه و تحلیل کنید
داده ها را از Spark Data Frames در جداول Delta بارگیری کنید
پرس و جوهای Adhoc را با استفاده از Databricks SQL Editor برای اعتبارسنجی داده ها اجرا کنید
نمای کلی جداول خارجی با استفاده از Databricks SQL
استفاده از فرمان COPY برای کپی کردن داده ها در جداول دلتا
مدیریت Databricks SQL Endpoints
مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده
Asasri Manthena
نمایش نظرات