آموزش مهندسی داده با استفاده از Databricks در AWS و Azure

Data Engineering using Databricks on AWS and Azure

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
توضیحات دوره: ساخت لوله‌های مهندسی داده با استفاده از ویژگی‌های اصلی Databricks مانند Spark، Delta Lake، cloudFiles و غیره. استفاده از مهندسی داده Databricks دارای Databricks CLI برای مدیریت فایل‌ها، کارهای مهندسی داده و خوشه‌ها برای خطوط لوله مهندسی داده استقرار برنامه‌های مهندسی داده توسعه‌یافته با استفاده از PySpark بر روی خوشه‌های شغلی استقرار برنامه‌های مهندسی داده توسعه‌یافته با استفاده از PySpark با استفاده از نوت‌بوک‌های روی خوشه‌های شغلی انجام عملیات CRUD با بهره‌گیری از Delta Lake با استفاده از Spark SQL برای برنامه‌های مهندسی داده یا Pipelines انجام عملیات CRUD با بهره‌گیری از دریاچه دلتا با استفاده از Pyspark برای برنامه‌های مهندسی داده یا Pipelines تنظیم محیط توسعه با استفاده از مهندسی داده Databricks Building Data Engineering Pipelines with Spark Structured Streaming در Databricks Cluster پردازش افزایشی فایل با استفاده از Spark Structured Streaming اهرم نفوذ Databricks Auto Loader cloudFiles بررسی اجمالی حالت های کشف فایل cloudFiles خودکار بارگزار - فهرست فهرست راهنما و اعلان های فایل بین Auto Discovery Discovery Directory. اعلان‌های فایل تفاوت‌های بین جریان سنتی Spark Structured و استفاده از Databricks Auto Loader cloudFiles برای پردازش تدریجی فایل. پیش نیازها:تجربه برنامه نویسی با استفاده از تجربه مهندسی داده پایتون با استفاده از قابلیت Spark برای نوشتن و تفسیر پرس و جوهای SQL این دوره برای مهندسین داده با تجربه ایده آل است تا Databricks را به عنوان یکی از مهارت های کلیدی به عنوان بخشی از پروفایل اضافه کنند.

به عنوان بخشی از این دوره، تمام مهندسی داده را با استفاده از فناوری مبتنی بر پلتفرم ابری به نام Databricks یاد خواهید گرفت.

درباره مهندسی داده

مهندسی داده چیزی جز پردازش داده ها بسته به نیازهای پایین دست ما نیست. ما باید خطوط لوله مختلفی مانند خط لوله دسته ای، خط لوله جریان و غیره را به عنوان بخشی از مهندسی داده بسازیم. تمام نقش های مربوط به پردازش داده ها تحت مهندسی داده ادغام شده است. به طور متعارف، آنها به عنوان توسعه ETL، توسعه انبار داده و غیره شناخته می شوند.

درباره Databricks

Databricks محبوب‌ترین پشته فناوری مهندسی داده مبتنی بر پلتفرم ابری است. آنها مرتکبان پروژه آپاچی اسپارک هستند. زمان اجرای Databricks Spark را برای افزایش کشش ابر فراهم می کند. با Databricks، شما برای چیزی که استفاده می کنید هزینه پرداخت می کنید. در طی یک دوره زمانی، آنها با ارائه تمام ویژگی هایی که برای BI سنتی و همچنین AI ML مورد نیاز است، ایده Lakehouse را مطرح کردند. در اینجا برخی از ویژگی های اصلی Databricks آمده است.

  • Spark - محاسبات توزیع شده

  • دریاچه دلتا - عملیات CRUD را انجام دهید. در درجه اول برای ایجاد قابلیت هایی مانند درج، به روز رسانی و حذف داده ها از فایل ها در Data Lake استفاده می شود.

  • cloudFiles - فایل‌ها را به صورت افزایشی و به کارآمدترین روش با استفاده از ویژگی‌های ابری دریافت کنید.

  • Databricks SQL - یک رابط مبتنی بر فوتون که برای اجرای پرس‌وجوهای ارسال شده برای گزارش‌دهی و تجسم توسط ابزارهای گزارش‌دهی به‌خوبی تنظیم شده است. همچنین برای تجزیه و تحلیل Ad-hoc استفاده می شود.

جزئیات دوره

به عنوان بخشی از این دوره، شما مهندسی داده را با استفاده از Databricks یاد خواهید گرفت.

  • شروع با Databricks

  • تنظیم محیط توسعه محلی برای توسعه برنامه های مهندسی داده با استفاده از Databricks

  • استفاده از Databricks CLI برای مدیریت فایل‌ها، مشاغل، خوشه‌ها و غیره مربوط به برنامه‌های مهندسی داده

  • چرخه توسعه برنامه Spark برای ساخت برنامه های مهندسی داده

  • مشاغل و خوشه‌های Databricks

  • استقرار و اجرای مشاغل مهندسی داده در خوشه های شغلی Databricks به عنوان برنامه پایتون

  • استقرار و اجرای مشاغل مهندسی داده بر روی خوشه های شغلی Databricks با استفاده از نوت بوک

  • به دریاچه دلتا با استفاده از Dataframes در پلتفرم Databricks شیرجه بزنید

  • با استفاده از Spark SQL در Databricks Platform به دریاچه دلتا شیرجه بزنید

  • ساخت خطوط لوله مهندسی داده با استفاده از جریان ساختار یافته اسپارک روی خوشه های آجری داده

  • پردازش افزایشی فایل با استفاده از Spark Structured Streaming با استفاده از Databricks Auto Loader cloudFiles

  • نمای کلی از حالت‌های کشف فایل cloudFiles AutoLoader - فهرست دایرکتوری و اعلان‌های فایل

  • تفاوت‌های بین حالت‌های کشف فایل cloudFiles Auto Loader - فهرست فهرست و اعلان‌های فایل

  • تفاوت‌های بین جریان سنتی Spark Structured و استفاده از Databricks Auto Loader cloudFiles برای پردازش تدریجی فایل.

  • نمای کلی Databricks SQL برای تجزیه و تحلیل داده و گزارش.

در هفته‌های آینده چند ماژول دیگر مرتبط با Pyspark، Spark with Scala، Spark SQL و Streaming Pipelines اضافه خواهیم کرد.

مخاطب مورد نظر

در اینجا مخاطبان مورد نظر برای این دوره پیشرفته هستند.

  • برنامه‌نویسان با تجربه برای کسب تخصص مرتبط با مهندسی داده با دانش و تجربه قبلی Spark.

  • مهندسین داده باتجربه برای کسب مهارت کافی برای افزودن Databricks به نمایه خود.

  • تست‌کننده‌ها برای بهبود قابلیت‌های آزمایشی خود در رابطه با برنامه‌های مهندسی داده با استفاده از Databricks.

پیش نیازها

  • تدارکات

    • کامپیوتر با پیکربندی مناسب (حداقل 4 گیگابایت رم، اما 8 گیگابایت بسیار مورد نظر است)

    • دو هسته مورد نیاز است و چهار هسته بسیار مورد نظر است

    • مرورگر کروم

    • اینترنت پرسرعت

    • حساب معتبر AWS

    • حساب Databricks معتبر (حساب Databricks رایگان کافی نیست)

  • به عنوان مهندس داده به خصوص با استفاده از اسپارک Apache

    تجربه کنید
  • دانش در مورد برخی از مفاهیم ابر مانند ذخیره سازی، کاربران، نقش ها و غیره.

هزینه های مرتبط

به عنوان بخشی از آموزش، فقط مطالب را دریافت خواهید کرد. باید روی حساب ابری خود یا شرکتی و حساب Databricks تمرین کنید.

  • شما باید از هزینه‌های مربوط به AWS یا Azure مراقبت کنید.

  • شما باید از هزینه های Databricks مرتبط مراقبت کنید.

رویکرد آموزشی

در اینجا جزئیات مربوط به رویکرد آموزشی آمده است.

  • مطالب مرجع، تکه‌های کد و ویدیوهای ارائه‌شده به‌عنوان بخشی از Udemy به‌صورت خودکار تنظیم می‌شود.

  • برای تمرین تمام ویژگی های اصلی Databricks، باید در محیط Databricks خود ثبت نام کنید.

  • ما توصیه می کنیم هر هفته 2 ماژول را با صرف 4 تا 5 ساعت در هفته تکمیل کنید.

  • توصیه می‌شود که از تمام وظایف مراقبت کنید تا بتوان تجربه واقعی از Databricks را بدست آورد.

  • پشتیبانی از طریق Udemy Q A ارائه خواهد شد.

در اینجا طرح کلی دوره دقیق است.

شروع به کار با Databricks در Azure

به عنوان بخشی از این بخش، جزئیات مربوط به ثبت نام در Azure و راه اندازی کلاستر Databricks در Azure را بررسی خواهیم کرد.

  • شروع به کار با Databricks در Azure

  • برای حساب Azure ثبت نام کنید

  • ورود به سیستم وارد شوید و سهمیه ها را برای vCPU های منطقه ای در Azure افزایش دهید

  • ایجاد فضای کاری Azure Databricks

  • راه اندازی Azure Databricks Workspace یا Cluster

  • مطالعه سریع رابط کاربری Azure Databricks

  • خوشه تک نود Azure Databricks را ایجاد کنید

  • آپلود داده ها با استفاده از رابط کاربری Azure Databricks

  • نمای کلی ایجاد نوت بوک و اعتبارسنجی فایل ها با استفاده از Azure Databricks

  • برنامه Spark را با استفاده از Azure Databricks Notebook توسعه دهید

  • Spark Jobs را با استفاده از Azure Databricks Notebook اعتبار سنجی کنید

  • صادرات و واردات نوت بوک های Azure Databricks

  • خاتمه Azure Databricks Cluster و حذف پیکربندی

  • با حذف گروه منابع، فضای کاری Azure Databricks را حذف کنید

Azure Essentials برای Databricks - Azure CLI

به عنوان بخشی از این بخش، جزئیات مربوط به راه اندازی Azure CLI برای مدیریت منابع Azure با استفاده از دستورات مربوطه را بررسی خواهیم کرد.

  • Azure Essentials برای Databricks - Azure CLI

  • Azure CLI با استفاده از Azure Portal Cloud Shell

  • شروع به کار با Azure CLI در مک

  • شروع به کار با Azure CLI در ویندوز

  • گرم کردن با Azure CLI - نمای کلی

  • گروه منابع را با استفاده از Azure CLI ایجاد کنید

  • ایجاد حساب ذخیره سازی ADLS با در گروه منابع

  • کانتینر را به عنوان بخشی از حساب ذخیره‌سازی اضافه کنید

  • نمای کلی آپلود داده ها در سیستم فایل یا کانتینر ADLS

  • Setup Data Set به صورت محلی برای آپلود در ADLS File System یا Container

  • دایرکتوری محلی را در سیستم فایل یا کانتینر Azure ADLS آپلود کنید

  • حساب ذخیره سازی Azure ADLS را با استفاده از Azure CLI حذف کنید

  • گروه منابع Azure را با استفاده از Azure CLI حذف کنید

برای دسترسی به فایل‌ها از Azure Blob Storage ADLS را روی Azure Databricks نصب کنید

به عنوان بخشی از این بخش، جزئیات مربوط به نصب Azure Data Lake Storage (ADLS) را در Azure Databricks Cluster بررسی خواهیم کرد.

  • ADLS را روی Azure Databricks نصب کنید - مقدمه

  • از فضای کاری Azure Databricks اطمینان حاصل کنید

  • راه اندازی Databricks CLI در مک یا ویندوز با استفاده از محیط مجازی پایتون

  • Databricks CLI را برای فضای کاری جدید Azure Databricks پیکربندی کنید

  • یک برنامه Azure Active Directory را ثبت کنید

  • Databricks Secret را برای AD Application Client Secret ایجاد کنید

  • ایجاد حساب ذخیره سازی ADLS

  • نقش IAM در حساب ذخیره سازی را به برنامه Azure AD اختصاص دهید

  • تنظیم مجموعه داده DB خرده فروشی

  • کانتینر یا سیستم فایل ADLS ایجاد کنید و داده ها را آپلود کنید

  • Databricks Cluster را برای نصب ADLS راه اندازی کنید

  • حساب ذخیره سازی ADLS را روی Azure Databricks نصب کنید

  • نقطه کوه ADLS را در خوشه های Azure Databricks اعتبار سنجی کنید

  • نقطه اتصال را از Databricks جدا کنید

  • حذف گروه منبع Azure مورد استفاده برای نصب ADLS در Azure Databricks

تنظیم محیط توسعه محلی برای Databricks

به عنوان بخشی از این بخش، جزئیات مربوط به راه اندازی محیط توسعه محلی برای Databricks را با استفاده از ابزارهایی مانند Pycharm، Databricks dbconnect، Databricks dbutils و غیره بررسی خواهیم کرد.

  • تنظیم خوشه Databricks Single Node

  • Databricks Connect را نصب کنید

  • پیکربندی Databricks Connect

  • ادغام Pycharm با Databricks Connect

  • Cluster Databricks را با کاتالوگ چسب ادغام کنید

  • سطل AWS s3 را راه اندازی کنید و مجوزها را اعطا کنید

  • نصب سطل های s3 در خوشه های Databricks

  • استفاده از Databricks dbutils از IDEهایی مانند Pycharm

استفاده از Databricks CLI

به عنوان بخشی از این بخش، مروری بر Databricks CLI برای تعامل با Databricks File System یا DBFS خواهیم داشت.

  • مقدمه ای بر Databricks CLI

  • نصب و پیکربندی Databricks CLI

  • تعامل با سیستم فایل Databricks با استفاده از Databricks CLI

  • دریافت جزئیات کلاستر Databricks با استفاده از Databricks CLI

Databricks Jobs and Cluster

به عنوان بخشی از این بخش، جزئیات مربوط به Databricks Jobs و Cluster را بررسی خواهیم کرد.

  • مقدمه ای بر مشاغل و خوشه های Databricks

  • ایجاد استخر در پلتفرم Databricks

  • ایجاد Cluster در Azure Databricks

  • درخواست افزایش سهمیه CPU در Azure

  • ایجاد شغل در Databricks

  • ارسال مشاغل با استفاده از Databricks Job Cluster

  • ایجاد Pool در Databricks

  • اجرای کار با استفاده از خوشه Databricks تعاملی متصل به Pool

  • اجرای کار با استفاده از Databricks Job Cluster متصل به Pool

  • تمرین - با استفاده از خوشه تعاملی Databricks، برنامه را به عنوان شغل ارسال کنید

استقرار و اجرای Spark Applications بر روی Databricks

به عنوان بخشی از این بخش، جزئیات مربوط به استقرار Spark Applications در Databricks Cluster و همچنین اجرای آن برنامه ها را بررسی خواهیم کرد.

  • PyCharm را برای Databricks آماده کنید

  • مجموعه های داده را آماده کنید

  • فایل ها را به ghactivity منتقل کنید

  • کد Refactor برای Databricks

  • تأیید اعتبار داده ها با استفاده از Databricks

  • تنظیم مجموعه داده برای استقرار تولید

  • با استفاده از Databricks dbutils به فراداده فایل دسترسی پیدا کنید

  • ساخت بسته قابل توسعه برای Databricks

  • اجرای مشاغل با استفاده از Databricks Web UI

  • جزئیات شغل و اجرا را با استفاده از Databricks CLI دریافت کنید

  • ارسال مشاغل Databricks با استفاده از CLI

  • راه اندازی و اعتبارسنجی Databricks Client Library

  • بازنشانی کار با استفاده از Databricks Jobs API

  • Databricks Job را به صورت برنامه نویسی با استفاده از پایتون اجرا کنید

  • اعتبار سنجی دقیق داده ها با استفاده از دفترچه یادداشت Databricks

Spark Jobs را با استفاده از Notebook اجرا و اجرا کنید

به عنوان بخشی از این بخش، جزئیات مربوط به استقرار Spark Applications در Databricks Cluster و همچنین اجرای آن برنامه ها با استفاده از Databricks Notebook را بررسی خواهیم کرد.

  • Modularizing Databricks Notebook

  • اجرای کار با استفاده از Databricks Notebook

  • برنامه Refactor به عنوان نوت بوک Databricks

  • Notebook را با استفاده از Databricks Development Cluster اجرا کنید

شیرجه عمیق به دریاچه دلتا با استفاده از Spark Data Frames در Databricks

به عنوان بخشی از این بخش، با استفاده از Spark Data Frames، تمام جزئیات مهم مربوط به Databricks Delta Lake را بررسی خواهیم کرد.

  • معرفی دریاچه دلتا با استفاده از Spark Data Frames در Databricks

  • ایجاد فریم‌های داده Spark برای دریاچه دلتا روی Databricks

  • نوشتن Spark Data Frame با استفاده از Delta Format در Databricks

  • به روز رسانی داده های موجود با استفاده از قالب دلتا در Databricks

  • داده های موجود را با استفاده از قالب دلتا در Databricks حذف کنید

  • ادغام یا اضافه کردن داده ها با استفاده از قالب دلتا در Databricks

  • حذف با استفاده از Merge in Delta Lake در Databricks

  • در بازیابی Snapshot با استفاده از Delta Logs در Databricks به آن اشاره کنید

  • حذف فایل های دلتا غیر ضروری با استفاده از Vacuum on Databricks

  • تراکم فایل‌های دریاچه دلتا روی Databricks

شیرجه عمیق به دریاچه دلتا با استفاده از Spark SQL در Databricks

به عنوان بخشی از این بخش، تمام جزئیات مهم مربوط به Databricks Delta Lake را با استفاده از Spark SQL بررسی خواهیم کرد.

  • معرفی دریاچه دلتا با استفاده از Spark SQL در Databricks

  • جدول دریاچه دلتا را با استفاده از Spark SQL در Databricks ایجاد کنید

  • درج داده‌ها به جدول دریاچه دلتا با استفاده از Spark SQL در Databricks

  • به روز رسانی داده ها در Delta Lake Table با استفاده از Spark SQL در Databricks

  • داده ها را از جدول Delta Lake با استفاده از Spark SQL در Databricks حذف کنید

  • ادغام یا اضافه کردن داده ها در Delta Lake Table با استفاده از Spark SQL در Databricks

  • استفاده از تابع Merge روی Delta Lake Table با استفاده از Spark SQL در Databricks

  • نقطه یابی در Snapshot Recovery با استفاده از Delta Lake Table با استفاده از Spark SQL در Databricks

  • جروبرقی جداول دریاچه دلتا با استفاده از Spark SQL در Databricks

  • تراکم جداول دریاچه دلتا با استفاده از Spark SQL روی Databricks

دسترسی به پایانه کلاستر Databricks از طریق وب و همچنین SSH

به عنوان بخشی از این بخش، نحوه دسترسی به پایانه مربوط به Databricks Cluster را از طریق وب و همچنین SSH خواهیم دید.

  • ترمینال وب را در Databricks Admin Console فعال کنید

  • ترمینال وب را برای Databricks Cluster راه اندازی کنید

  • SSH را برای Databricks Cluster Driver Node

    تنظیم کنید
  • اتصال SSH را به گره درایور Databricks در AWS تأیید کنید

  • محدودیت های SSH و مقایسه با ترمینال وب مربوط به خوشه های Databricks

نصب نرم افزارها بر روی Databricks Cluster با استفاده از اسکریپت های init

به عنوان بخشی از این بخش، نحوه راه‌اندازی خوشه‌های Databricks را با نصب کتابخانه‌های شخص ثالث مربوطه برای برنامه‌های خود خواهیم دید.

  • gen_logs را در Databricks Cluster تنظیم کنید

  • نمای کلی اسکریپت های Init برای کلاسترهای Databricks

  • اسکریپت برای نصب نرم افزار از git در Databricks Cluster ایجاد کنید

  • اسکریپت init را در مکان dbfs کپی کنید

  • خوشه مستقل Databricks را با اسکریپت init ایجاد کنید

خلاصه سریع جریان ساختار یافته Spark

به عنوان بخشی از این بخش، خلاصه‌ای از جریان Spark Structured دریافت می‌کنیم.

  • Netcat را در Databricks Driver Node تأیید کنید

  • پیام های گزارش را به سرور وب Netcat در Databricks Driver Node فشار دهید

  • خواندن گزارش‌های وب سرور با استفاده از Spark Structured Streaming

  • نوشتن داده‌های جریانی در فایل‌ها

بارهای افزایشی با استفاده از جریان ساختار یافته Spark در Databricks

به عنوان بخشی از این بخش، نحوه انجام بارهای افزایشی را با استفاده از جریان ساختاری Spark در Databricks خواهیم فهمید.

  • نمای کلی جریان ساختار یافته Spark

  • مراحل پردازش اطلاعات افزایشی در Databricks

  • Cluster Databricks را با نمایه نمونه پیکربندی کنید

  • آپلود فایل‌های GHAArchive به AWS s3 با استفاده از Databricks Notebook

  • داده‌های JSON را با استفاده از Spark Structured Streaming در Databricks بخوانید

  • با استفاده از Trigger Once on Databricks با استفاده از قالب فایل Delta بنویسید

  • داده‌های GHAArchive را در فایل‌های دلتا با استفاده از Spark on Databricks تجزیه و تحلیل کنید

  • فایل‌های جدید GHActivity JSON را به Databricks اضافه کنید

  • بارگذاری تدریجی داده ها در جدول هدف در Databricks

  • تأیید بار افزایشی روی Databricks

  • موارد داخلی پردازش فایل جریانی ساختاریافته Spark روی Databricks

بارهای افزایشی با استفاده از AutoLoader Cloud Files در Databricks

به عنوان بخشی از این بخش، نحوه اجرای بارهای افزایشی با استفاده از autoLoader cloudFiles در Databricks Cluster را خواهیم دید.

  • نمای کلی AutoLoader cloudFiles در Databricks

  • فایل‌های GHAArchive را در s3 در Databricks آپلود کنید

  • داده ها را با استفاده از AutoLoader cloudFiles در Databricks بنویسید

  • فایل‌های جدید GHActivity JSON را به Databricks اضافه کنید

  • بارگذاری تدریجی داده ها در جدول هدف در Databricks

  • فایل‌های جدید GHActivity JSON را به Databricks اضافه کنید

  • نمای کلی مدیریت رویدادهای S3 با استفاده از خدمات AWS در Databricks

  • نقش IAM را برای اعلان‌های فایل cloudFiles در Databricks پیکربندی کنید

  • بارگیری افزایشی با استفاده از اعلان‌های فایل cloudFiles در Databricks

  • سرویس‌های AWS را برای اعلان‌های رویداد cloudFiles در Databricks مرور کنید

  • فراداده ایجاد شده برای CloudFiles Checkpointing در Databricks را بررسی کنید

نمای کلی Databricks SQL Clusters

به عنوان بخشی از این بخش، مروری بر Databricks SQL Clusterها خواهیم داشت.

  • نمای کلی Databricks SQL Platform - مقدمه

  • First Query را با استفاده از ویرایشگر SQL Databricks SQL اجرا کنید

  • نمای کلی داشبوردها با استفاده از Databricks SQL

  • نمای کلی Databricks SQL Data Explorer برای بررسی پایگاه‌های داده و جداول متاستور

  • از Databricks SQL Editor برای توسعه اسکریپت ها یا پرس و جوها استفاده کنید

  • فراداده جداول را با استفاده از Databricks SQL Platform بررسی کنید

  • نمای کلی بارگیری داده ها در جداول retail_db

  • Databricks CLI را پیکربندی کنید تا داده ها را به بستر Databricks منتقل کند

  • داده‌های JSON را با استفاده از Databricks CLI در DBFS کپی کنید

  • داده‌های JSON را با استفاده از Spark API تجزیه و تحلیل کنید

  • شماهای جدول دلتا را با استفاده از Spark API تجزیه و تحلیل کنید

  • داده ها را از Spark Data Frames در جداول Delta بارگیری کنید

  • پرس و جوهای Adhoc را با استفاده از Databricks SQL Editor برای اعتبارسنجی داده ها اجرا کنید

  • نمای کلی جداول خارجی با استفاده از Databricks SQL

  • استفاده از فرمان COPY برای کپی کردن داده ها در جداول دلتا

  • مدیریت Databricks SQL Endpoints


سرفصل ها و درس ها

مقدمه ای بر مهندسی داده با استفاده از Databricks Introduction to Data Engineering using Databricks

  • نمای کلی دوره - مهندسی داده با استفاده از Databricks Overview of the course - Data Engineering using Databricks

  • منابعی که برای این دوره استفاده می شود کجاست؟ Where are the resources that are used for this course?

مقدمه ای بر مهندسی داده با استفاده از Databricks Introduction to Data Engineering using Databricks

شروع کار با Databricks در Azure Getting Started with Databricks on Azure

  • شروع کار با Databricks در Azure - مقدمه Getting Started with Databricks on Azure - Introduction

  • برای حساب Azure ثبت نام کنید Signup for the Azure Account

  • ورود و افزایش سهمیه برای vCPU های منطقه ای در Azure Login and Increase Quotas for regional vCPUs in Azure

  • فضای کاری Azure Databricks را ایجاد کنید Create Azure Databricks Workspace

  • راه اندازی Azure Databricks Workspace یا Cluster Launching Azure Databricks Workspace or Cluster

  • بررسی سریع رابط کاربری Azure Databricks Quick Walkthrough of Azure Databricks UI

  • خوشه تک گره Azure Databricks را ایجاد کنید Create Azure Databricks Single Node Cluster

  • داده ها را با استفاده از رابط کاربری Azure Databricks آپلود کنید Upload Data using Azure Databricks UI

  • مروری بر ایجاد نوت بوک و اعتبارسنجی فایل ها Overview of Creating Notebook and Validating Files

  • برنامه Spark را با استفاده از Azure Databricks Notebook توسعه دهید Develop Spark Application using Azure Databricks Notebook

  • اعتبار سنجی Spark Jobs با استفاده از Azure Databricks Notebook Validate Spark Jobs using Azure Databricks Notebook

  • صادرات و واردات نوت بوک Azure Databricks Export and Import of Azure Databricks Notebooks

  • خاتمه Azure Databricks Cluster و حذف پیکربندی Terminating Azure Databricks Cluster and Deleting Configuration

  • با حذف Resource Group، فضای کاری Azure Databricks را حذف کنید Delete Azure Databricks Workspace by deleting Resource Group

شروع کار با Databricks در Azure Getting Started with Databricks on Azure

Azure Essentials برای Databricks - Azure CLI Azure Essentials for Databricks - Azure CLI

  • Azure Essentials برای Databricks - Azure CLI Azure Essentials for Databricks - Azure CLI

  • Azure CLI با استفاده از Azure Portal Cloud Shell Azure CLI using Azure Portal Cloud Shell

  • شروع کار با Azure CLI در مک Getting Started with Azure CLI on Mac

  • شروع کار با Azure CLI در ویندوز Getting Started with Azure CLI on Windows

  • گرم کردن با Azure CLI - نمای کلی Warming up with Azure CLI - Overview

  • ایجاد گروه منابع با استفاده از Azure CLI Create Resource Group using Azure CLI

  • ایجاد حساب ذخیره سازی ADLS با در گروه منابع Create ADLS Storage Account with in Resource Group

  • کانتینر را به عنوان بخشی از حساب ذخیره سازی اضافه کنید Add Container as part of Storage Account

  • مروری بر آپلود داده ها در سیستم فایل یا کانتینر ADLS Overview of Uploading the data into ADLS File System or Container

  • Setup Data Set به صورت محلی برای آپلود در ADLS File System یا Container Setup Data Set locally to upload into ADLS File System or Container

  • فهرست محلی را در سیستم فایل یا کانتینر Azure ADLS آپلود کنید Upload local directory into Azure ADLS File System or Container

  • Azure ADLS Storage Account را با استفاده از Azure CLI حذف کنید Delete Azure ADLS Storage Account using Azure CLI

  • حذف Azure Resource Group با استفاده از Azure CLI Delete Azure Resource Group using Azure CLI

Azure Essentials برای Databricks - Azure CLI Azure Essentials for Databricks - Azure CLI

برای دسترسی به فایل‌ها از Azure Blob Storage، ADLS را روی Azure Databricks نصب کنید Mount ADLS on to Azure Databricks to access files from Azure Blob Storage

  • ADLS را روی Azure Databricks نصب کنید - مقدمه Mount ADLS on to Azure Databricks - Introduction

  • [مواد] - ADLS را روی Azure Databricks نصب کنید [Material] - Mount ADLS on to Azure Databricks

  • از فضای کاری Azure Databricks اطمینان حاصل کنید Ensure Azure Databricks Workspace

  • Databricks CLI را در مک یا ویندوز با استفاده از محیط مجازی پایتون راه اندازی کنید Setup Databricks CLI on Mac or Windows using Python Virtual Environment

  • Databricks CLI را برای فضای کاری جدید Azure Databricks پیکربندی کنید Configure Databricks CLI for new Azure Databricks Workspace

  • یک Azure Active Directory Application ثبت کنید Register an Azure Active Directory Application

  • ایجاد Databricks Secret برای AD Application Client Secret Create Databricks Secret for AD Application Client Secret

  • یک حساب ذخیره سازی ADLS ایجاد کنید Create ADLS Storage Account

  • نقش IAM در حساب ذخیره سازی را به برنامه Azure AD اختصاص دهید Assign IAM Role on Storage Account to Azure AD Application

  • راه اندازی مجموعه داده خرده فروشی DB Setup Retail DB Dataset

  • ظرف یا سیستم فایل ADLS ایجاد کنید و داده ها را آپلود کنید Create ADLS Container or File System and Upload Data

  • Databricks Cluster را برای نصب ADLS راه اندازی کنید Start Databricks Cluster to mount ADLS

  • حساب ذخیره سازی ADLS را روی Azure Databricks نصب کنید Mount ADLS Storage Account on to Azure Databricks

  • اعتبار ADLS Mount Point را روی خوشه های Azure Databricks اعتبار سنجی کنید Validate ADLS Mount Point on Azure Databricks Clusters

  • نقطه اتصال را از Databricks جدا کنید Unmount the mount point from Databricks

  • گروه منبع Azure را که برای نصب ADLS بر روی Azure Databricks استفاده می شود، حذف کنید Delete Azure Resource Group used for Mounting ADLS on to Azure Databricks

برای دسترسی به فایل‌ها از Azure Blob Storage، ADLS را روی Azure Databricks نصب کنید Mount ADLS on to Azure Databricks to access files from Azure Blob Storage

شروع کار با Databricks در AWS Getting Started with Databricks on AWS

  • مقدمه ای بر شروع کار با Databricks در AWS Introduction to Getting Started with Databricks on AWS

  • برای حساب AWS ثبت نام کنید Signup for AWS Account

  • وارد کنسول مدیریت AWS شوید Login into AWS Management Console

  • با استفاده از QuickStart، Databricks Workspace را در AWS راه اندازی کنید Setup Databricks Workspace on AWS using QuickStart

  • وارد Databricks Workspace در AWS شوید Login into Databricks Workspace on AWS

  • تمیز کردن فضای کار Cleaning up the workspace

  • بررسی سریع رابط کاربری Databricks در AWS Quick Walkthrough of Databricks UI on AWS

  • خوشه Databricks Single Node را در AWS ایجاد کنید Create Single Node Databricks Cluster on AWS

  • با استفاده از AWS Databricks UI داده ها را آپلود کنید Upload Data using AWS Databricks UI

  • مروری بر ایجاد Databricks Notebook در AWS و اعتبار سنجی فایل ها Overview of Creating Databricks Notebook on AWS and Validating Files

  • برنامه Spark را با استفاده از AWS Databricks Notebook توسعه دهید Develop Spark Application using AWS Databricks Notebook

  • وضعیت AWS Databricks Cluster را بررسی کرده و مجددا راه اندازی کنید Review the AWS Databricks Cluster state and restart

  • قاب داده را در DBFS بنویسید و با استفاده از Databricks Notebook و Spark اعتبار سنجی کنید Write Data frame to DBFS and Validate using Databricks Notebook and Spark

  • صادرات و واردات نوت بوک های AWS Databricks Export and Import AWS Databricks Notebooks

شروع کار با Databricks در AWS Getting Started with Databricks on AWS

AWS Essentials برای Databricks - راه اندازی محیط توسعه محلی در ویندوز AWS Essentials for Databricks - Setup Local Development Environment on Windows

  • مقدمه ای بر راه اندازی محیط محلی با AWS CLI و Boto3 در ویندوز Introduction to Setup Local Environment with AWS CLI and Boto3 on Windows

  • نمای کلی Powershell در ویندوز 10 یا ویندوز 11 Overview of Powershell on Windows 10 or Windows 11

  • راه اندازی Ubuntu VM در ویندوز 10 یا 11 با استفاده از wsl Setup Ubuntu VM on Windows 10 or 11 using wsl

  • راه اندازی Ubuntu VM در ویندوز 10 یا 11 با استفاده از wsl Setup Ubuntu VM on Windows 10 or 11 using wsl

  • پایتون venv و pip را در اوبونتو راه اندازی کنید Setup Python venv and pip on Ubuntu

  • AWS CLI را در ویندوز و اوبونتو با استفاده از Pip راه اندازی کنید Setup AWS CLI on Windows and Ubuntu using Pip

  • AWS IAM User و بارگیری اعتبار ایجاد کنید Create AWS IAM User and Download Credentials

  • AWS CLI را در ویندوز پیکربندی کنید Configure AWS CLI on Windows

  • ایجاد محیط مجازی پایتون برای پروژه های AWS Create Python Virtual Environment for AWS Projects

  • Boto3 را به عنوان بخشی از محیط مجازی پایتون راه اندازی کنید Setup Boto3 as part of Python Virtual Environment

  • راه اندازی آزمایشگاه Jupyter و اعتبارسنجی boto3 Setup Jupyter Lab and Validate boto3

AWS Essentials برای Databricks - راه اندازی محیط توسعه محلی در ویندوز AWS Essentials for Databricks - Setup Local Development Environment on Windows

AWS Essentials برای Databricks - راه اندازی محیط توسعه محلی در مک AWS Essentials for Databricks - Setup Local Development Environment on Mac

  • مقدمه ای بر راه اندازی محیط توسعه محلی برای AWS در مک Introduction to Setup Local Development Enviroment for AWS on Mac

  • AWS CLI را در مک راه اندازی کنید Setup AWS CLI on Mac

  • کاربر AWS IAM را برای پیکربندی AWS CLI تنظیم کنید Setup AWS IAM User to configure AWS CLI

  • AWS CLI را با استفاده از اعتبار کاربری IAM پیکربندی کنید Configure AWS CLI using IAM User Credentials

  • راه اندازی محیط مجازی پایتون در مک با استفاده از پایتون 3 Setup Python Virtual Environment on Mac using Python 3

  • Boto3 را به عنوان بخشی از محیط مجازی پایتون راه اندازی کنید Setup Boto3 as part of Python Virtual Environment

  • راه اندازی آزمایشگاه Jupyter و اعتبارسنجی boto3 Setup Jupyter Lab and Validate boto3

AWS Essentials برای Databricks - راه اندازی محیط توسعه محلی در مک AWS Essentials for Databricks - Setup Local Development Environment on Mac

AWS Essentials برای Databricks - مروری بر راهکارهای ذخیره سازی AWS AWS Essentials for Databricks - Overview of AWS Storage Solutions

  • شروع کار با AWS S3 Getting Started with AWS S3

  • [دستورالعمل ها] شروع به کار با AWS S3 [Instructions] Getting Started with AWS S3

  • Setup Data Set به صورت محلی برای آپلود در s3 Setup Data Set locally to upload to s3

  • [دستورالعمل ها] تنظیم داده ها به صورت محلی برای آپلود در s3 [Instructions] Setup Data Set locally to upload to s3

  • اضافه کردن سطل ها و اشیاء AWS S3 Adding AWS S3 Buckets and Objects

  • [دستورالعمل] افزودن سطل ها و اشیاء AWS s3 [Instruction] Adding AWS s3 Buckets and Objects

  • کنترل نسخه در AWS S3 Version Control in AWS S3

  • [دستورالعمل ها] کنترل نسخه در AWS S3 [Instructions] Version Control in AWS S3

  • AWS S3 Cross-Region Replication برای تحمل خطا AWS S3 Cross-Region Replication for fault tolerance

  • [دستورالعمل ها] AWS S3 Cross-Region Replication برای تحمل خطا [Instructions] AWS S3 Cross-Region Replication for fault tolerance

  • تکرار منطقه ای برای بازیابی فاجعه AWS S3 Cross-Region Replication for Disaster Recovery of AWS S3

  • مروری بر کلاس های ذخیره سازی AWS S3 Overview of AWS S3 Storage Classes

  • [دستورالعمل ها] مروری بر کلاس های ذخیره سازی AWS S3 یا سطوح ذخیره سازی [Instructions] Overview of AWS S3 Storage Classes or Storage Tiers

  • نمای کلی AWS S3 Glacier Overview of AWS S3 Glacier

  • [دستورالعمل ها] نمای کلی Glacier در AWS s3 [Instructions] Overview of Glacier in AWS s3

  • مدیریت AWS S3 با استفاده از AWS CLI Managing AWS S3 using AWS CLI

  • [دستورالعمل ها و دستورات] مدیریت سطل ها و اشیاء AWS S3 با استفاده از AWS CLI [Instructions and Commands] Managing AWS S3 buckets and objects using AWS CLI

  • مدیریت اشیاء در AWS S3 با استفاده از CLI - Lab Managing Objects in AWS S3 using CLI - Lab

  • [دستورالعمل ها] مدیریت اشیاء در AWS S3 با استفاده از AWS CLI - Lab [Instructions] Managing Objects in AWS S3 using AWS CLI - Lab

AWS Essentials برای Databricks - مروری بر راهکارهای ذخیره سازی AWS AWS Essentials for Databricks - Overview of AWS Storage Solutions

AWS Essentials برای Databricks - مروری بر نقش‌های AWS s3 و IAM برای Databricks AWS Essentials for Databricks - Overview of AWS s3 and IAM Roles for Databricks

  • مروری بر AWS s3 و IAM برای Databricks Overview of AWS s3 and IAM for Databricks

  • ایجاد کاربران AWS IAM Creating AWS IAM Users

  • [دستورالعمل ها] ایجاد کاربران IAM [Instructions] Creating IAM Users

  • ورود به کنسول مدیریت AWS با استفاده از IAM User Logging into AWS Management Console using IAM User

  • [دستورالعمل ها] ورود به کنسول مدیریت AWS با استفاده از IAM User [Instructions] Logging into AWS Management Console using IAM User

  • اعتبار سنجی دسترسی برنامه ای به کاربر AWS IAM Validate Programmatic Access to AWS IAM User

  • [دستورالعمل‌ها و دستورات] اعتبار دسترسی برنامه‌ای به کاربر IAM را تأیید کنید [Instructions and Commands] Validate Programmatic Access to IAM User

  • سیاست های مبتنی بر هویت AWS IAM AWS IAM Identity-based Policies

  • [دستورالعمل ها و دستورات] سیاست های مبتنی بر هویت IAM [Instructions and Commands] IAM Identity-based Policies

  • مدیریت گروه های کاربری AWS IAM Managing AWS IAM User Groups

  • [دستورالعمل ها و دستورات] مدیریت گروه های IAM [Instructions and Commands] Managing IAM Groups

  • مدیریت نقش های AWS IAM Managing AWS IAM Roles

  • [دستورالعمل ها و دستورات] مدیریت نقش های IAM [Instructions and Commands] Managing IAM Roles

  • مروری بر سیاست های سفارشی AWS IAM Overview of AWS IAM Custom Policies

  • [دستورالعمل ها و دستورات] مروری بر سیاست های سفارشی [Instructions and Commands] Overview of Custom Policies

  • مدیریت هویت های AWS IAM با استفاده از AWS CLI Managing AWS IAM Identities using AWS CLI

  • [دستورالعمل ها و دستورات] مدیریت IAM با استفاده از AWS CLI [Instructions and Commands] Managing IAM using AWS CLI

AWS Essentials برای Databricks - مروری بر نقش‌های AWS s3 و IAM برای Databricks AWS Essentials for Databricks - Overview of AWS s3 and IAM Roles for Databricks

AWS Essentials برای Databricks - ادغام AWS s3 و کاتالوگ چسب AWS Essentials for Databricks - Integrating AWS s3 and Glue Catalog

  • مقدمه ای بر ادغام AWS s3 و کاتالوگ چسب با Databricks Introduction to Integrating AWS s3 and Glue Catalog with Databricks

  • گروه AWS IAM را برای توسعه دهندگان Databricks ایجاد کنید Create AWS IAM Group for Databricks Developers

  • کاربران AWS IAM را ایجاد کنید و به گروه اضافه کنید Create AWS IAM Users and adding to group

  • سطل AWS s3 مورد نیاز را برای توسعه دهندگان Databricks ایجاد کنید Create required AWS s3 Bucket for Databricks Developers

  • اعطای مجوز در AWS s3 Bucket به کاربران گروه از طریق AWS IAM Inline P Grant Permissions on AWS s3 Bucket to the users in group via AWS IAM Inline P

  • AWS IAM Policy را ضمیمه کنید تا از طریق سیاست IAM به کاربران اجازه دسترسی به Glue را بدهید Attach AWS IAM Policy to grant access to Glue to the users via IAM Policy

  • برای خزیدن با استفاده از AWS Glue Crawler، JSON Dataset را در s3 آپلود کنید Upload JSON Dataset to s3 to crawl using AWS Glue Crawler

  • نمای کلی نقش های IAM برای خزنده های چسب Overview of IAM roles for Glue Crawlers

  • نقش خدمات سفارشی AWS IAM را برای خزنده های چسب ایجاد کنید Create AWS IAM Custom Service Role for Glue Crawlers

  • ایجاد خزنده چسب برای ایجاد چندین جدول کاتالوگ چسب Create Glue Crawler to Create Multiple Glue Catalog Tables

  • مروری بر ادغام خوشه های Databricks و نمونه های AWS EC2 Overview of Integration of Databricks Clusters and AWS EC2 Instances

  • نقش یا نمایه نمونه AWS IAM ایجاد کنید Create AWS IAM Role or Instance Profile

  • ثبت نمایه نمونه AWS IAM با حساب Databricks Registering AWS IAM Instance Profile with Databricks Account

  • نمایه نمونه AWS IAM را به Databricks Cluster جدید و همچنین موجود پیوست کنید Attach AWS IAM Instance Profile to new as well as existing Databricks Cluster

  • با استفاده از AWS IAM Policy و Insta، مجوزهای s3 را به Databricks Clusters اعطا کنید Grant Permissions on s3 to Databricks Clusters using AWS IAM Policy and Insta

  • اعطای نقش سرویس چسب AWS IAM به خوشه های Databricks از طریق نمایه های نمونه Grant AWS IAM Glue Service Role to Databricks Clusters via Instance Profiles

AWS Essentials برای Databricks - ادغام AWS s3 و کاتالوگ چسب AWS Essentials for Databricks - Integrating AWS s3 and Glue Catalog

راه اندازی محیط توسعه محلی برای Databricks Setup Local Development Environment for Databricks

  • راه اندازی خوشه Databricks Single Node Setup Single Node Databricks Cluster

  • Databricks Connect را نصب کنید Install Databricks Connect

  • Databricks Connect را پیکربندی کنید Configure Databricks Connect

  • ادغام Pycharm با Databricks Connect Integrating Pycharm with Databricks Connect

  • کد - ادغام Pycharm با Databricks Connect Code - Integrating Pycharm with Databricks Connect

  • ادغام Databricks Cluster با Glue Catalog Integrate Databricks Cluster with Glue Catalog

  • سطل s3 را راه اندازی کنید و مجوزها را اعطا کنید Setup s3 Bucket and Grant Permissions

  • نصب سطل های s3 در خوشه های Databricks Mounting s3 Buckets into Databricks Clusters

  • استفاده از dbutils از IDE هایی مانند Pycharm Using dbutils from IDEs such as Pycharm

  • کد - استفاده از dbutils از IDEهایی مانند Pycharm Code - Using dbutils from IDEs such as Pycharm

راه اندازی محیط توسعه محلی برای Databricks Setup Local Development Environment for Databricks

با استفاده از Databricks CLI Using Databricks CLI

  • معرفی Introduction

  • Databricks CLI را نصب و پیکربندی کنید Install and Configure Databricks CLI

  • تعامل با فایل سیستم با استفاده از CLI. Interacting with File System using CLI.

  • دریافت جزئیات خوشه با استفاده از CLI Getting Cluster Details using CLI

با استفاده از Databricks CLI Using Databricks CLI

چرخه عمر توسعه برنامه Spark Spark Application Development Life Cycle

  • محیط مجازی را راه اندازی کرده و Pyspark را نصب کنید Setup Virtual Environment and Install Pyspark

  • [فرمان ها] - محیط مجازی را راه اندازی کرده و Pyspark را نصب کنید [Commands] - Setup Virtual Environment and Install Pyspark

  • شروع با Pycharm Getting Started with Pycharm

  • [کد و دستورالعمل] - شروع به کار با Pycharm [Code and Instructions] - Getting Started with Pycharm

  • گذراندن آرگومان های زمان اجرا Passing Run Time Arguments

  • دسترسی به متغیرهای محیط سیستم عامل Accessing OS Environment Variables

  • شروع کار با Spark Getting Started with Spark

  • ایجاد تابع برای Spark Session Create Function for Spark Session

  • [کد و دستورالعمل] - ایجاد عملکرد برای Spark Session [Code and Instructions] - Create Function for Spark Session

  • تنظیم داده های نمونه Setup Sample Data

  • خواندن داده ها از فایل ها Read data from files

  • [کد و دستورالعمل] - داده ها را از فایل ها بخوانید [Code and Instructions] - Read data from files

  • پردازش داده ها با استفاده از Spark API Process data using Spark APIs

  • [کد و دستورالعمل ها] - پردازش داده ها با استفاده از Spark API [Code and Instructions] - Process data using Spark APIs

  • نوشتن داده ها در فایل ها Write data to files

  • [کد و دستورالعمل] - داده ها را در فایل ها بنویسید [Code and Instructions] - Write data to files

  • اعتبار سنجی نوشتن داده ها در فایل ها Validating Writing Data to Files

  • تولید کد Productionizing the Code

  • [کد و دستورالعمل] - تولید کد [Code and Instructions] - Productionizing the code

  • تنظیم داده ها برای اعتبار سنجی تولید Setting up Data for Production Validation

چرخه عمر توسعه برنامه Spark Spark Application Development Life Cycle

Databricks Jobs and Cluster Databricks Jobs and Clusters

  • مقدمه ای بر مشاغل و خوشه ها Introduction to Jobs and Clusters

  • ایجاد Pool در پلتفرم Databricks Creating Pools in Databricks Platform

  • ایجاد Cluster در Azure Databricks Create Cluster on Azure Databricks

  • درخواست افزایش سهمیه پردازنده در Azure Request to Increase CPU Quota on Azure

  • ایجاد کار روی Databricks Creating Job on Databricks

  • ارسال مشاغل با استفاده از Job Cluster Submitting Jobs using Job Cluster

  • ایجاد Pool در Databricks Create Pool in Databricks

  • اجرای کار با استفاده از خوشه تعاملی متصل به استخر Running Job using Interactive Cluster Attached to Pool

  • اجرای کار با استفاده از خوشه شغلی متصل به استخر Running Job Using Job Cluster Attached to Pool

  • تمرین - با استفاده از خوشه تعاملی، برنامه را به عنوان شغل ارسال کنید Exercise - Submit the application as job using interactive cluster

Databricks Jobs and Cluster Databricks Jobs and Clusters

استقرار و اجرای Spark Applications بر روی Databricks Deploy and Run Spark Applications on Databricks

  • PyCharm را برای Databricks آماده کنید Prepare PyCharm for Databricks

  • مجموعه داده ها را آماده کنید Prepare Data Sets

  • انتقال فایل ها به ghactivity Move files to ghactivity

  • کد Refactor برای Databricks Refactor Code for Databricks

  • اعتبارسنجی داده ها با استفاده از Databricks Validating Data using Databricks

  • تنظیم مجموعه داده برای استقرار تولید Setup Data Set for Production Deployment

  • با استفاده از dbutils به فراداده فایل دسترسی پیدا کنید Access File Metadata using dbutils

  • ساخت بسته نرم افزاری Deployable برای Databricks Build Deployable bundle for Databricks

  • اجرای مشاغل با استفاده از Databricks Web UI. Running Jobs using Databricks Web UI.

  • با استفاده از Databricks CLI جزئیات کار و اجرا را دریافت کنید Get Job and Run Details using Databricks CLI

  • ارسال مشاغل Databricks با استفاده از CLI Submitting Databricks Jobs using CLI

  • راه اندازی و اعتبارسنجی Databricks Client Library Setup and Validate Databricks Client Library

  • بازنشانی Job با استفاده از Jobs API Resetting the Job using Jobs API

  • Databricks Job را به صورت برنامه نویسی با استفاده از پایتون اجرا کنید Run Databricks Job programmatically using Python

  • اعتبار سنجی دقیق داده ها Detailed Validation of Data

استقرار و اجرای Spark Applications بر روی Databricks Deploy and Run Spark Applications on Databricks

Spark Jobs را با استفاده از نوت بوک اجرا کنید Deploy Spark Jobs using Notebooks

  • مدولار کردن نوت بوک ها Modularizing Notebooks

  • اجرای کار با استفاده از نوت بوک Running Job using Notebook

  • برنامه Refactor به عنوان نوت بوک Databricks Refactor application as Databricks Notebooks

  • نوت بوک را با استفاده از توسعه کلاستر اجرا کنید Run Notebook using Development Cluster

Spark Jobs را با استفاده از نوت بوک اجرا کنید Deploy Spark Jobs using Notebooks

با استفاده از Spark Data Frames در Databricks به دریاچه دلتا شیرجه بزنید Deep Dive into Delta Lake using Spark Data Frames on Databricks

  • معرفی دریاچه دلتا با استفاده از چارچوب داده Introduction to Delta Lake using Data Frames

  • ایجاد چارچوب داده برای دریاچه دلتا Creating Data Frames for Delta Lake

  • نوشتن قاب داده با استفاده از قالب دلتا Writing Data Frame using Delta Format

  • به روز رسانی داده های موجود با استفاده از قالب دلتا Updating Existing Data using Delta Format

  • داده های موجود را با استفاده از قالب دلتا حذف کنید Delete Existing Data using Delta Format

  • ادغام یا اضافه کردن داده ها با استفاده از قالب دلتا Merge or Upsert Data using Delta Format

  • حذف با استفاده از Merge در دریاچه دلتا Deleting using Merge in Delta Lake

  • با استفاده از Delta Logs در Snapshot Recovery اشاره کنید Point in Snapshot Recovery using Delta Logs

  • حذف فایل های دلتا غیر ضروری با استفاده از Vacuum Deleting unnecessary Delta Files using Vacuum

  • فشرده سازی فایل های دریاچه دلتا Compaction of Delta Lake Files

با استفاده از Spark Data Frames در Databricks به دریاچه دلتا شیرجه بزنید Deep Dive into Delta Lake using Spark Data Frames on Databricks

شیرجه عمیق به دریاچه دلتا با استفاده از Spark SQL در Databricks Deep Dive into Delta Lake using Spark SQL on Databricks

  • معرفی دریاچه دلتا با استفاده از SQL Introduction to Delta Lake using SQL

  • ایجاد چارچوب داده برای دریاچه دلتا Creating Data Frames for Delta Lake

  • جدول دریاچه دلتا را ایجاد کنید Create Delta Lake Table

  • درج داده ها به جدول دریاچه دلتا Insert Data to Delta Lake Table

  • به‌روزرسانی داده‌ها در جدول دریاچه دلتا Update Data in Delta Lake Table

  • داده ها را از جدول دریاچه دلتا حذف کنید Delete Data from Delta Lake Table

  • داده ها را در جدول دریاچه دلتا ادغام یا اضافه کنید Merge or Upsert Data into Delta Lake Table

  • استفاده از تابع Merge روی Delta Lake Table Using Merge Function over Delta Lake Table

  • نقطه در Snapshot Recovery با استفاده از Delta Lake Table Point in Snapshot Recovery using Delta Lake Table

  • جاروبرقی جداول دریاچه دلتا Vacuuming Delta Lake Tables

  • فشرده سازی جداول دریاچه دلتا Compaction of Delta Lake Tables

شیرجه عمیق به دریاچه دلتا با استفاده از Spark SQL در Databricks Deep Dive into Delta Lake using Spark SQL on Databricks

دسترسی به Databricks Cluster Terminal از طریق وب و همچنین SSH Accessing Databricks Cluster Terminal via Web as well as SSH

  • Web Terminal را در Databricks Admin Console فعال کنید Enable Web Terminal in Databricks Admin Console

  • Web Terminal for Databricks Cluster را راه اندازی کنید Launch Web Terminal for Databricks Cluster

  • SSH را برای Databricks Cluster Driver Node تنظیم کنید Setup SSH for the Databricks Cluster Driver Node

  • اعتبار اتصال SSH به گره درایور Databricks در AWS Validate SSH Connectivity to the Databricks Driver Node on AWS

  • محدودیت های SSH و مقایسه با ترمینال وب Limitations of SSH and comparison with Web Terminal

دسترسی به Databricks Cluster Terminal از طریق وب و همچنین SSH Accessing Databricks Cluster Terminal via Web as well as SSH

نصب نرم افزار بر روی Databricks Cluster با استفاده از اسکریپت های init Installing Softwares on Databricks Clusters using init scripts

  • gen_logs را در Databricks Cluster راه اندازی کنید Setup gen_logs on Databricks Cluster

  • [فرمان‌ها] gen_logs را در Databricks Cluster تنظیم کنید [Commands] Setup gen_logs on Databricks Cluster

  • مروری بر اسکریپت های Init برای Databricks Cluster Overview of Init Scripts for Databricks Clusters

  • ایجاد اسکریپت برای نصب نرم افزار از git در Databricks Cluster Create Script to install software from git on Databricks Cluster

  • [فرمان ها] اسکریپت برای نصب نرم افزار از git در Databricks Cluster ایجاد کنید [Commands] Create Script to install software from git on Databricks Cluster

  • اسکریپت init را در محل dbfs کپی کنید Copy init script to dbfs location

  • [فرمان ها] اسکریپت init را در مکان dbfs کپی کنید [Commands] Copy init script to dbfs location

  • خوشه مستقل Databricks را با اسکریپت init ایجاد کنید Create Databricks Standalone Cluster with init script

نصب نرم افزار بر روی Databricks Cluster با استفاده از اسکریپت های init Installing Softwares on Databricks Clusters using init scripts

خلاصه سریع جریان ساختار یافته اسپارک Quick Recap of Spark Structured Streaming

  • Netcat را در Databricks Driver Node اعتبار سنجی کنید Validate Netcat on Databricks Driver Node

  • پیام‌های گزارش را به سرور وب Netcat در Databricks Driver Node فشار دهید Push log messages to Netcat Webserver on Databricks Driver Node

  • خواندن گزارش‌های وب سرور با استفاده از Spark Structured Streaming Reading Web Server logs using Spark Structured Streaming

  • نوشتن داده های جریانی در فایل ها Writing Streaming Data to Files

خلاصه سریع جریان ساختار یافته اسپارک Quick Recap of Spark Structured Streaming

بارهای افزایشی با استفاده از جریان ساختاری جرقه بر روی آجرهای داده Incremental Loads using Spark Structured Streaming on Databricks

  • مروری بر جریان ساختار یافته اسپارک Overview of Spark Structured Streaming

  • مراحل پردازش داده های افزایشی Steps for Incremental Data Processing

  • Cluster را با Instance Profile.mp4 پیکربندی کنید Configure Cluster with Instance Profile.mp4

  • فایل های GHAarchive را در s3 آپلود کنید Upload GHArchive Files to s3

  • داده های JSON را با استفاده از Spark Structured Streaming بخوانید Read JSON Data using Spark Structured Streaming

  • با استفاده از Trigger Once با فرمت فایل دلتا بنویسید Write using Delta file format using Trigger Once

  • تجزیه و تحلیل داده های GHAArchive در فایل های دلتا با استفاده از Spark Analyze GHArchive Data in Delta files using Spark

  • فایل های جدید GHActivity JSON را اضافه کنید Add New GHActivity JSON files

  • بار افزایشی را تأیید کنید Validate Incremental Load

  • موارد داخلی پردازش فایل جریانی ساختاریافته Spark Internals of Spark Structured Streaming File Processing

بارهای افزایشی با استفاده از جریان ساختاری جرقه بر روی آجرهای داده Incremental Loads using Spark Structured Streaming on Databricks

بارهای افزایشی با استفاده از AutoLoader Cloud Files در Databricks Incremental Loads using autoLoader Cloud Files on Databricks

  • مروری بر Auto Loader cloudFiles Overview of Auto Loader cloudFiles

  • فایل های GHAarchive را در s3 آپلود کنید Upload GHArchive Files to s3

  • با استفاده از Auto Loader cloudFiles داده ها را بنویسید Write Data using Auto Loader cloudFiles

  • فایل های جدید GHActivity JSON را اضافه کنید Add New GHActivity JSON files

  • بارگذاری تدریجی داده ها در جدول هدف Load Data Incrementally to Target Table

  • فایل های جدید GHActivity JSON را اضافه کنید Add New GHActivity JSON files

  • مروری بر مدیریت رویدادهای S3 با استفاده از خدمات AWS Overview of Handling S3 Events using AWS Services

  • نقش IAM را برای اعلان‌های فایل cloudFiles پیکربندی کنید Configure IAM Role for cloudFiles file notifications

  • بارگذاری افزایشی با استفاده از اعلان‌های فایل cloudFiles Incremental Load using cloudFiles File Notifications

  • سرویس‌های AWS را برای اعلان‌های رویداد cloudFiles مرور کنید Review AWS Services for cloudFiles Event Notifications

  • بررسی فراداده ایجاد شده برای CloudFiles Checkpointing Review Metadata Generated for cloudFiles Checkpointing

بارهای افزایشی با استفاده از AutoLoader Cloud Files در Databricks Incremental Loads using autoLoader Cloud Files on Databricks

مروری بر خوشه های Databricks SQL Overview of Databricks SQL Clusters

  • نمای کلی Databricks SQL Platform - مقدمه Overview of Databricks SQL Platform - Introduction

  • First Query را با استفاده از ویرایشگر SQL Databricks SQL اجرا کنید Run First Query using SQL Editor of Databricks SQL

  • نمای کلی داشبوردها با استفاده از Databricks SQL Overview of Dashboards using Databricks SQL

  • مروری بر Databricks SQL Data Explorer برای بررسی پایگاه داده و جداول متاستور Overview of Databricks SQL Data Explorer to review Metastore Database and Tables

  • از Databricks SQL Editor برای توسعه اسکریپت ها یا پرس و جوها استفاده کنید Use Databricks SQL Editor to develop scripts or queries

  • بررسی فراداده جداول با استفاده از Databricks SQL Platform Review Metadata of Tables using Databricks SQL Platform

  • نمای کلی بارگیری داده ها در جداول retail_db Overview of loading data into retail_db tables

  • Databricks CLI را پیکربندی کنید تا داده ها را به Databricks Platform منتقل کند Configure Databricks CLI to push data into Databricks Platform

  • داده های JSON را با استفاده از Databricks CLI در DBFS کپی کنید Copy JSON Data into DBFS using Databricks CLI

  • داده های JSON را با استفاده از Spark API تجزیه و تحلیل کنید Analyze JSON Data using Spark APIs

  • طرحواره های جدول دلتا را با استفاده از Spark API تجزیه و تحلیل کنید Analyze Delta Table Schemas using Spark APIs

  • بارگذاری داده ها از Spark Data Frames در جداول دلتا Load Data from Spark Data Frames into Delta Tables

  • برای اعتبارسنجی داده ها، پرس و جوهای Adhoc را با استفاده از Databricks SQL Editor اجرا کنید Run Adhoc Queries using Databricks SQL Editor to validate data

  • مروری بر جداول خارجی با استفاده از Databricks SQL Overview of External Tables using Databricks SQL

  • استفاده از دستور COPY برای کپی داده ها در جداول دلتا Using COPY Command to Copy Data into Delta Tables

  • نقاط پایانی Databricks SQL را مدیریت کنید Manage Databricks SQL Endpoints

مروری بر خوشه های Databricks SQL Overview of Databricks SQL Clusters

نمایش نظرات

نظری ارسال نشده است.

آموزش مهندسی داده با استفاده از Databricks در AWS و Azure
خرید اشتراک و دانلود خرید تکی و دانلود | 160,000 تومان (5 روز مهلت دانلود) زمان تقریبی آماده سازی لینک دانلود این دوره آموزشی حدود 5 تا 24 ساعت می باشد.
جزییات دوره
18.5 hours
267
Udemy (یودمی) udemy-small
09 فروردین 1402 (آخرین آپدیت رو دریافت می‌کنید، حتی اگر این تاریخ بروز نباشد.)
9,819
4.7 از 5
دارد
دارد
دارد

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Durga Viswanatha Raju Gadiraju Durga Viswanatha Raju Gadiraju

مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده

Durga Viswanatha Raju Gadiraju Durga Viswanatha Raju Gadiraju

مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده

Asasri Manthena Asasri Manthena

Asasri Manthena Asasri Manthena

Udemy (یودمی)

یودمی یکی از بزرگ‌ترین پلتفرم‌های آموزشی آنلاین است که به میلیون‌ها کاربر در سراسر جهان امکان دسترسی به دوره‌های متنوع و کاربردی را فراهم می‌کند. این پلتفرم امکان آموزش در زمینه‌های مختلف از فناوری اطلاعات و برنامه‌نویسی گرفته تا زبان‌های خارجی، مدیریت، و هنر را به کاربران ارائه می‌دهد. با استفاده از یودمی، کاربران می‌توانند به صورت انعطاف‌پذیر و بهینه، مهارت‌های جدیدی را یاد بگیرند و خود را برای بازار کار آماده کنند.

یکی از ویژگی‌های برجسته یودمی، کیفیت بالای دوره‌ها و حضور استادان مجرب و با تجربه در هر حوزه است. این امر به کاربران اعتماد می‌دهد که در حال دریافت آموزش از منابع قابل اعتماد و معتبر هستند و می‌توانند به بهترین شکل ممکن از آموزش‌ها بهره ببرند. به طور خلاصه، یودمی به عنوان یکی از معتبرترین و موثرترین پلتفرم‌های آموزشی آنلاین، به افراد امکان می‌دهد تا به راحتی و با کیفیت، مهارت‌های مورد نیاز خود را ارتقا دهند و به دنبال رشد و پیشرفت شغلی خود باشند.