دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش مهندسی داده با استفاده از Databricks در AWS و Azure

Data Engineering using Databricks on AWS and Azure top rated

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: ساخت لوله‌های مهندسی داده با استفاده از ویژگی‌های اصلی Databricks مانند Spark، Delta Lake، cloudFiles و غیره. استفاده از مهندسی داده Databricks دارای Databricks CLI برای مدیریت فایل‌ها، کارهای مهندسی داده و خوشه‌ها برای خطوط لوله مهندسی داده استقرار برنامه‌های مهندسی داده توسعه‌یافته با استفاده از PySpark بر روی خوشه‌های شغلی استقرار برنامه‌های مهندسی داده توسعه‌یافته با استفاده از PySpark با استفاده از نوت‌بوک‌های روی خوشه‌های شغلی انجام عملیات CRUD با بهره‌گیری از Delta Lake با استفاده از Spark SQL برای برنامه‌های مهندسی داده یا Pipelines انجام عملیات CRUD با بهره‌گیری از دریاچه دلتا با استفاده از Pyspark برای برنامه‌های مهندسی داده یا Pipelines تنظیم محیط توسعه با استفاده از مهندسی داده Databricks Building Data Engineering Pipelines with Spark Structured Streaming در Databricks Cluster پردازش افزایشی فایل با استفاده از Spark Structured Streaming اهرم نفوذ Databricks Auto Loader cloudFiles بررسی اجمالی حالت های کشف فایل cloudFiles خودکار بارگزار - فهرست فهرست راهنما و اعلان های فایل بین Auto Discovery Discovery Directory. اعلان‌های فایل تفاوت‌های بین جریان سنتی Spark Structured و استفاده از Databricks Auto Loader cloudFiles برای پردازش تدریجی فایل. پیش نیازها:تجربه برنامه نویسی با استفاده از تجربه مهندسی داده پایتون با استفاده از قابلیت Spark برای نوشتن و تفسیر پرس و جوهای SQL این دوره برای مهندسین داده با تجربه ایده آل است تا Databricks را به عنوان یکی از مهارت های کلیدی به عنوان بخشی از پروفایل اضافه کنند.

به عنوان بخشی از این دوره، تمام مهندسی داده را با استفاده از فناوری مبتنی بر پلتفرم ابری به نام Databricks یاد خواهید گرفت.

درباره مهندسی داده

مهندسی داده چیزی جز پردازش داده ها بسته به نیازهای پایین دست ما نیست. ما باید خطوط لوله مختلفی مانند خط لوله دسته ای، خط لوله جریان و غیره را به عنوان بخشی از مهندسی داده بسازیم. تمام نقش های مربوط به پردازش داده ها تحت مهندسی داده ادغام شده است. به طور متعارف، آنها به عنوان توسعه ETL، توسعه انبار داده و غیره شناخته می شوند.

درباره Databricks

Databricks محبوب‌ترین پشته فناوری مهندسی داده مبتنی بر پلتفرم ابری است. آنها مرتکبان پروژه آپاچی اسپارک هستند. زمان اجرای Databricks Spark را برای افزایش کشش ابر فراهم می کند. با Databricks، شما برای چیزی که استفاده می کنید هزینه پرداخت می کنید. در طی یک دوره زمانی، آنها با ارائه تمام ویژگی هایی که برای BI سنتی و همچنین AI ML مورد نیاز است، ایده Lakehouse را مطرح کردند. در اینجا برخی از ویژگی های اصلی Databricks آمده است.

Spark - محاسبات توزیع شده
دریاچه دلتا - عملیات CRUD را انجام دهید. در درجه اول برای ایجاد قابلیت هایی مانند درج، به روز رسانی و حذف داده ها از فایل ها در Data Lake استفاده می شود.
cloudFiles - فایل‌ها را به صورت افزایشی و به کارآمدترین روش با استفاده از ویژگی‌های ابری دریافت کنید.
Databricks SQL - یک رابط مبتنی بر فوتون که برای اجرای پرس‌وجوهای ارسال شده برای گزارش‌دهی و تجسم توسط ابزارهای گزارش‌دهی به‌خوبی تنظیم شده است. همچنین برای تجزیه و تحلیل Ad-hoc استفاده می شود.

جزئیات دوره

به عنوان بخشی از این دوره، شما مهندسی داده را با استفاده از Databricks یاد خواهید گرفت.

شروع با Databricks
تنظیم محیط توسعه محلی برای توسعه برنامه های مهندسی داده با استفاده از Databricks
استفاده از Databricks CLI برای مدیریت فایل‌ها، مشاغل، خوشه‌ها و غیره مربوط به برنامه‌های مهندسی داده
چرخه توسعه برنامه Spark برای ساخت برنامه های مهندسی داده
مشاغل و خوشه‌های Databricks
استقرار و اجرای مشاغل مهندسی داده در خوشه های شغلی Databricks به عنوان برنامه پایتون
استقرار و اجرای مشاغل مهندسی داده بر روی خوشه های شغلی Databricks با استفاده از نوت بوک
به دریاچه دلتا با استفاده از Dataframes در پلتفرم Databricks شیرجه بزنید
با استفاده از Spark SQL در Databricks Platform به دریاچه دلتا شیرجه بزنید
ساخت خطوط لوله مهندسی داده با استفاده از جریان ساختار یافته اسپارک روی خوشه های آجری داده
پردازش افزایشی فایل با استفاده از Spark Structured Streaming با استفاده از Databricks Auto Loader cloudFiles
نمای کلی از حالت‌های کشف فایل cloudFiles AutoLoader - فهرست دایرکتوری و اعلان‌های فایل
تفاوت‌های بین حالت‌های کشف فایل cloudFiles Auto Loader - فهرست فهرست و اعلان‌های فایل
تفاوت‌های بین جریان سنتی Spark Structured و استفاده از Databricks Auto Loader cloudFiles برای پردازش تدریجی فایل.
نمای کلی Databricks SQL برای تجزیه و تحلیل داده و گزارش.

در هفته‌های آینده چند ماژول دیگر مرتبط با Pyspark، Spark with Scala، Spark SQL و Streaming Pipelines اضافه خواهیم کرد.

مخاطب مورد نظر

در اینجا مخاطبان مورد نظر برای این دوره پیشرفته هستند.

برنامه‌نویسان با تجربه برای کسب تخصص مرتبط با مهندسی داده با دانش و تجربه قبلی Spark.
مهندسین داده باتجربه برای کسب مهارت کافی برای افزودن Databricks به نمایه خود.
تست‌کننده‌ها برای بهبود قابلیت‌های آزمایشی خود در رابطه با برنامه‌های مهندسی داده با استفاده از Databricks.

پیش نیازها

تدارکات
- کامپیوتر با پیکربندی مناسب (حداقل 4 گیگابایت رم، اما 8 گیگابایت بسیار مورد نظر است)
- دو هسته مورد نیاز است و چهار هسته بسیار مورد نظر است
- مرورگر کروم
- اینترنت پرسرعت
- حساب معتبر AWS
- حساب Databricks معتبر (حساب Databricks رایگان کافی نیست)
به عنوان مهندس داده به خصوص با استفاده از اسپارک Apache
تجربه کنید
دانش در مورد برخی از مفاهیم ابر مانند ذخیره سازی، کاربران، نقش ها و غیره.

هزینه های مرتبط

به عنوان بخشی از آموزش، فقط مطالب را دریافت خواهید کرد. باید روی حساب ابری خود یا شرکتی و حساب Databricks تمرین کنید.

شما باید از هزینه‌های مربوط به AWS یا Azure مراقبت کنید.
شما باید از هزینه های Databricks مرتبط مراقبت کنید.

رویکرد آموزشی

در اینجا جزئیات مربوط به رویکرد آموزشی آمده است.

مطالب مرجع، تکه‌های کد و ویدیوهای ارائه‌شده به‌عنوان بخشی از Udemy به‌صورت خودکار تنظیم می‌شود.
برای تمرین تمام ویژگی های اصلی Databricks، باید در محیط Databricks خود ثبت نام کنید.
ما توصیه می کنیم هر هفته 2 ماژول را با صرف 4 تا 5 ساعت در هفته تکمیل کنید.
توصیه می‌شود که از تمام وظایف مراقبت کنید تا بتوان تجربه واقعی از Databricks را بدست آورد.
پشتیبانی از طریق Udemy Q A ارائه خواهد شد.

در اینجا طرح کلی دوره دقیق است.

شروع به کار با Databricks در Azure

به عنوان بخشی از این بخش، جزئیات مربوط به ثبت نام در Azure و راه اندازی کلاستر Databricks در Azure را بررسی خواهیم کرد.

شروع به کار با Databricks در Azure
برای حساب Azure ثبت نام کنید
ورود به سیستم وارد شوید و سهمیه ها را برای vCPU های منطقه ای در Azure افزایش دهید
ایجاد فضای کاری Azure Databricks
راه اندازی Azure Databricks Workspace یا Cluster
مطالعه سریع رابط کاربری Azure Databricks
خوشه تک نود Azure Databricks را ایجاد کنید
آپلود داده ها با استفاده از رابط کاربری Azure Databricks
نمای کلی ایجاد نوت بوک و اعتبارسنجی فایل ها با استفاده از Azure Databricks
برنامه Spark را با استفاده از Azure Databricks Notebook توسعه دهید
Spark Jobs را با استفاده از Azure Databricks Notebook اعتبار سنجی کنید
صادرات و واردات نوت بوک های Azure Databricks
خاتمه Azure Databricks Cluster و حذف پیکربندی
با حذف گروه منابع، فضای کاری Azure Databricks را حذف کنید

Azure Essentials برای Databricks - Azure CLI

به عنوان بخشی از این بخش، جزئیات مربوط به راه اندازی Azure CLI برای مدیریت منابع Azure با استفاده از دستورات مربوطه را بررسی خواهیم کرد.

Azure Essentials برای Databricks - Azure CLI
Azure CLI با استفاده از Azure Portal Cloud Shell
شروع به کار با Azure CLI در مک
شروع به کار با Azure CLI در ویندوز
گرم کردن با Azure CLI - نمای کلی
گروه منابع را با استفاده از Azure CLI ایجاد کنید
ایجاد حساب ذخیره سازی ADLS با در گروه منابع
کانتینر را به عنوان بخشی از حساب ذخیره‌سازی اضافه کنید
نمای کلی آپلود داده ها در سیستم فایل یا کانتینر ADLS
Setup Data Set به صورت محلی برای آپلود در ADLS File System یا Container
دایرکتوری محلی را در سیستم فایل یا کانتینر Azure ADLS آپلود کنید
حساب ذخیره سازی Azure ADLS را با استفاده از Azure CLI حذف کنید
گروه منابع Azure را با استفاده از Azure CLI حذف کنید

برای دسترسی به فایل‌ها از Azure Blob Storage ADLS را روی Azure Databricks نصب کنید

به عنوان بخشی از این بخش، جزئیات مربوط به نصب Azure Data Lake Storage (ADLS) را در Azure Databricks Cluster بررسی خواهیم کرد.

ADLS را روی Azure Databricks نصب کنید - مقدمه
از فضای کاری Azure Databricks اطمینان حاصل کنید
راه اندازی Databricks CLI در مک یا ویندوز با استفاده از محیط مجازی پایتون
Databricks CLI را برای فضای کاری جدید Azure Databricks پیکربندی کنید
یک برنامه Azure Active Directory را ثبت کنید
Databricks Secret را برای AD Application Client Secret ایجاد کنید
ایجاد حساب ذخیره سازی ADLS
نقش IAM در حساب ذخیره سازی را به برنامه Azure AD اختصاص دهید
تنظیم مجموعه داده DB خرده فروشی
کانتینر یا سیستم فایل ADLS ایجاد کنید و داده ها را آپلود کنید
Databricks Cluster را برای نصب ADLS راه اندازی کنید
حساب ذخیره سازی ADLS را روی Azure Databricks نصب کنید
نقطه کوه ADLS را در خوشه های Azure Databricks اعتبار سنجی کنید
نقطه اتصال را از Databricks جدا کنید
حذف گروه منبع Azure مورد استفاده برای نصب ADLS در Azure Databricks

تنظیم محیط توسعه محلی برای Databricks

به عنوان بخشی از این بخش، جزئیات مربوط به راه اندازی محیط توسعه محلی برای Databricks را با استفاده از ابزارهایی مانند Pycharm، Databricks dbconnect، Databricks dbutils و غیره بررسی خواهیم کرد.

تنظیم خوشه Databricks Single Node
Databricks Connect را نصب کنید
پیکربندی Databricks Connect
ادغام Pycharm با Databricks Connect
Cluster Databricks را با کاتالوگ چسب ادغام کنید
سطل AWS s3 را راه اندازی کنید و مجوزها را اعطا کنید
نصب سطل های s3 در خوشه های Databricks
استفاده از Databricks dbutils از IDEهایی مانند Pycharm

استفاده از Databricks CLI

به عنوان بخشی از این بخش، مروری بر Databricks CLI برای تعامل با Databricks File System یا DBFS خواهیم داشت.

مقدمه ای بر Databricks CLI
نصب و پیکربندی Databricks CLI
تعامل با سیستم فایل Databricks با استفاده از Databricks CLI
دریافت جزئیات کلاستر Databricks با استفاده از Databricks CLI

Databricks Jobs and Cluster

به عنوان بخشی از این بخش، جزئیات مربوط به Databricks Jobs و Cluster را بررسی خواهیم کرد.

مقدمه ای بر مشاغل و خوشه های Databricks
ایجاد استخر در پلتفرم Databricks
ایجاد Cluster در Azure Databricks
درخواست افزایش سهمیه CPU در Azure
ایجاد شغل در Databricks
ارسال مشاغل با استفاده از Databricks Job Cluster
ایجاد Pool در Databricks
اجرای کار با استفاده از خوشه Databricks تعاملی متصل به Pool
اجرای کار با استفاده از Databricks Job Cluster متصل به Pool
تمرین - با استفاده از خوشه تعاملی Databricks، برنامه را به عنوان شغل ارسال کنید

استقرار و اجرای Spark Applications بر روی Databricks

به عنوان بخشی از این بخش، جزئیات مربوط به استقرار Spark Applications در Databricks Cluster و همچنین اجرای آن برنامه ها را بررسی خواهیم کرد.

PyCharm را برای Databricks آماده کنید
مجموعه های داده را آماده کنید
فایل ها را به ghactivity منتقل کنید
کد Refactor برای Databricks
تأیید اعتبار داده ها با استفاده از Databricks
تنظیم مجموعه داده برای استقرار تولید
با استفاده از Databricks dbutils به فراداده فایل دسترسی پیدا کنید
ساخت بسته قابل توسعه برای Databricks
اجرای مشاغل با استفاده از Databricks Web UI
جزئیات شغل و اجرا را با استفاده از Databricks CLI دریافت کنید
ارسال مشاغل Databricks با استفاده از CLI
راه اندازی و اعتبارسنجی Databricks Client Library
بازنشانی کار با استفاده از Databricks Jobs API
Databricks Job را به صورت برنامه نویسی با استفاده از پایتون اجرا کنید
اعتبار سنجی دقیق داده ها با استفاده از دفترچه یادداشت Databricks

Spark Jobs را با استفاده از Notebook اجرا و اجرا کنید

به عنوان بخشی از این بخش، جزئیات مربوط به استقرار Spark Applications در Databricks Cluster و همچنین اجرای آن برنامه ها با استفاده از Databricks Notebook را بررسی خواهیم کرد.

Modularizing Databricks Notebook
اجرای کار با استفاده از Databricks Notebook
برنامه Refactor به عنوان نوت بوک Databricks
Notebook را با استفاده از Databricks Development Cluster اجرا کنید

شیرجه عمیق به دریاچه دلتا با استفاده از Spark Data Frames در Databricks

به عنوان بخشی از این بخش، با استفاده از Spark Data Frames، تمام جزئیات مهم مربوط به Databricks Delta Lake را بررسی خواهیم کرد.

معرفی دریاچه دلتا با استفاده از Spark Data Frames در Databricks
ایجاد فریم‌های داده Spark برای دریاچه دلتا روی Databricks
نوشتن Spark Data Frame با استفاده از Delta Format در Databricks
به روز رسانی داده های موجود با استفاده از قالب دلتا در Databricks
داده های موجود را با استفاده از قالب دلتا در Databricks حذف کنید
ادغام یا اضافه کردن داده ها با استفاده از قالب دلتا در Databricks
حذف با استفاده از Merge in Delta Lake در Databricks
در بازیابی Snapshot با استفاده از Delta Logs در Databricks به آن اشاره کنید
حذف فایل های دلتا غیر ضروری با استفاده از Vacuum on Databricks
تراکم فایل‌های دریاچه دلتا روی Databricks

شیرجه عمیق به دریاچه دلتا با استفاده از Spark SQL در Databricks

به عنوان بخشی از این بخش، تمام جزئیات مهم مربوط به Databricks Delta Lake را با استفاده از Spark SQL بررسی خواهیم کرد.

معرفی دریاچه دلتا با استفاده از Spark SQL در Databricks
جدول دریاچه دلتا را با استفاده از Spark SQL در Databricks ایجاد کنید
درج داده‌ها به جدول دریاچه دلتا با استفاده از Spark SQL در Databricks
به روز رسانی داده ها در Delta Lake Table با استفاده از Spark SQL در Databricks
داده ها را از جدول Delta Lake با استفاده از Spark SQL در Databricks حذف کنید
ادغام یا اضافه کردن داده ها در Delta Lake Table با استفاده از Spark SQL در Databricks
استفاده از تابع Merge روی Delta Lake Table با استفاده از Spark SQL در Databricks
نقطه یابی در Snapshot Recovery با استفاده از Delta Lake Table با استفاده از Spark SQL در Databricks
جروبرقی جداول دریاچه دلتا با استفاده از Spark SQL در Databricks
تراکم جداول دریاچه دلتا با استفاده از Spark SQL روی Databricks

دسترسی به پایانه کلاستر Databricks از طریق وب و همچنین SSH

به عنوان بخشی از این بخش، نحوه دسترسی به پایانه مربوط به Databricks Cluster را از طریق وب و همچنین SSH خواهیم دید.

ترمینال وب را در Databricks Admin Console فعال کنید
ترمینال وب را برای Databricks Cluster راه اندازی کنید
SSH را برای Databricks Cluster Driver Node
تنظیم کنید
اتصال SSH را به گره درایور Databricks در AWS تأیید کنید
محدودیت های SSH و مقایسه با ترمینال وب مربوط به خوشه های Databricks

نصب نرم افزارها بر روی Databricks Cluster با استفاده از اسکریپت های init

به عنوان بخشی از این بخش، نحوه راه‌اندازی خوشه‌های Databricks را با نصب کتابخانه‌های شخص ثالث مربوطه برای برنامه‌های خود خواهیم دید.

gen_logs را در Databricks Cluster تنظیم کنید
نمای کلی اسکریپت های Init برای کلاسترهای Databricks
اسکریپت برای نصب نرم افزار از git در Databricks Cluster ایجاد کنید
اسکریپت init را در مکان dbfs کپی کنید
خوشه مستقل Databricks را با اسکریپت init ایجاد کنید

خلاصه سریع جریان ساختار یافته Spark

به عنوان بخشی از این بخش، خلاصه‌ای از جریان Spark Structured دریافت می‌کنیم.

Netcat را در Databricks Driver Node تأیید کنید
پیام های گزارش را به سرور وب Netcat در Databricks Driver Node فشار دهید
خواندن گزارش‌های وب سرور با استفاده از Spark Structured Streaming
نوشتن داده‌های جریانی در فایل‌ها

بارهای افزایشی با استفاده از جریان ساختار یافته Spark در Databricks

به عنوان بخشی از این بخش، نحوه انجام بارهای افزایشی را با استفاده از جریان ساختاری Spark در Databricks خواهیم فهمید.

نمای کلی جریان ساختار یافته Spark
مراحل پردازش اطلاعات افزایشی در Databricks
Cluster Databricks را با نمایه نمونه پیکربندی کنید
آپلود فایل‌های GHAArchive به AWS s3 با استفاده از Databricks Notebook
داده‌های JSON را با استفاده از Spark Structured Streaming در Databricks بخوانید
با استفاده از Trigger Once on Databricks با استفاده از قالب فایل Delta بنویسید
داده‌های GHAArchive را در فایل‌های دلتا با استفاده از Spark on Databricks تجزیه و تحلیل کنید
فایل‌های جدید GHActivity JSON را به Databricks اضافه کنید
بارگذاری تدریجی داده ها در جدول هدف در Databricks
تأیید بار افزایشی روی Databricks
موارد داخلی پردازش فایل جریانی ساختاریافته Spark روی Databricks

بارهای افزایشی با استفاده از AutoLoader Cloud Files در Databricks

به عنوان بخشی از این بخش، نحوه اجرای بارهای افزایشی با استفاده از autoLoader cloudFiles در Databricks Cluster را خواهیم دید.

نمای کلی AutoLoader cloudFiles در Databricks
فایل‌های GHAArchive را در s3 در Databricks آپلود کنید
داده ها را با استفاده از AutoLoader cloudFiles در Databricks بنویسید
فایل‌های جدید GHActivity JSON را به Databricks اضافه کنید
بارگذاری تدریجی داده ها در جدول هدف در Databricks
فایل‌های جدید GHActivity JSON را به Databricks اضافه کنید
نمای کلی مدیریت رویدادهای S3 با استفاده از خدمات AWS در Databricks
نقش IAM را برای اعلان‌های فایل cloudFiles در Databricks پیکربندی کنید
بارگیری افزایشی با استفاده از اعلان‌های فایل cloudFiles در Databricks
سرویس‌های AWS را برای اعلان‌های رویداد cloudFiles در Databricks مرور کنید
فراداده ایجاد شده برای CloudFiles Checkpointing در Databricks را بررسی کنید

نمای کلی Databricks SQL Clusters

به عنوان بخشی از این بخش، مروری بر Databricks SQL Clusterها خواهیم داشت.

نمای کلی Databricks SQL Platform - مقدمه
First Query را با استفاده از ویرایشگر SQL Databricks SQL اجرا کنید
نمای کلی داشبوردها با استفاده از Databricks SQL
نمای کلی Databricks SQL Data Explorer برای بررسی پایگاه‌های داده و جداول متاستور
از Databricks SQL Editor برای توسعه اسکریپت ها یا پرس و جوها استفاده کنید
فراداده جداول را با استفاده از Databricks SQL Platform بررسی کنید
نمای کلی بارگیری داده ها در جداول retail_db
Databricks CLI را پیکربندی کنید تا داده ها را به بستر Databricks منتقل کند
داده‌های JSON را با استفاده از Databricks CLI در DBFS کپی کنید
داده‌های JSON را با استفاده از Spark API تجزیه و تحلیل کنید
شماهای جدول دلتا را با استفاده از Spark API تجزیه و تحلیل کنید
داده ها را از Spark Data Frames در جداول Delta بارگیری کنید
پرس و جوهای Adhoc را با استفاده از Databricks SQL Editor برای اعتبارسنجی داده ها اجرا کنید
نمای کلی جداول خارجی با استفاده از Databricks SQL
استفاده از فرمان COPY برای کپی کردن داده ها در جداول دلتا
مدیریت Databricks SQL Endpoints

سرفصل ها و درس ها

مقدمه ای بر مهندسی داده با استفاده از Databricks Introduction to Data Engineering using Databricks

نمای کلی دوره - مهندسی داده با استفاده از Databricks Overview of the course - Data Engineering using Databricks
منابعی که برای این دوره استفاده می شود کجاست؟ Where are the resources that are used for this course?

شروع کار با Databricks در Azure Getting Started with Databricks on Azure

شروع کار با Databricks در Azure - مقدمه Getting Started with Databricks on Azure - Introduction
برای حساب Azure ثبت نام کنید Signup for the Azure Account
ورود و افزایش سهمیه برای vCPU های منطقه ای در Azure Login and Increase Quotas for regional vCPUs in Azure
فضای کاری Azure Databricks را ایجاد کنید Create Azure Databricks Workspace
راه اندازی Azure Databricks Workspace یا Cluster Launching Azure Databricks Workspace or Cluster
بررسی سریع رابط کاربری Azure Databricks Quick Walkthrough of Azure Databricks UI
خوشه تک گره Azure Databricks را ایجاد کنید Create Azure Databricks Single Node Cluster
داده ها را با استفاده از رابط کاربری Azure Databricks آپلود کنید Upload Data using Azure Databricks UI
مروری بر ایجاد نوت بوک و اعتبارسنجی فایل ها Overview of Creating Notebook and Validating Files
برنامه Spark را با استفاده از Azure Databricks Notebook توسعه دهید Develop Spark Application using Azure Databricks Notebook
اعتبار سنجی Spark Jobs با استفاده از Azure Databricks Notebook Validate Spark Jobs using Azure Databricks Notebook
صادرات و واردات نوت بوک Azure Databricks Export and Import of Azure Databricks Notebooks
خاتمه Azure Databricks Cluster و حذف پیکربندی Terminating Azure Databricks Cluster and Deleting Configuration
با حذف Resource Group، فضای کاری Azure Databricks را حذف کنید Delete Azure Databricks Workspace by deleting Resource Group

Azure Essentials برای Databricks - Azure CLI Azure Essentials for Databricks - Azure CLI

Azure Essentials برای Databricks - Azure CLI Azure Essentials for Databricks - Azure CLI
Azure CLI با استفاده از Azure Portal Cloud Shell Azure CLI using Azure Portal Cloud Shell
شروع کار با Azure CLI در مک Getting Started with Azure CLI on Mac
شروع کار با Azure CLI در ویندوز Getting Started with Azure CLI on Windows
گرم کردن با Azure CLI - نمای کلی Warming up with Azure CLI - Overview
ایجاد گروه منابع با استفاده از Azure CLI Create Resource Group using Azure CLI
ایجاد حساب ذخیره سازی ADLS با در گروه منابع Create ADLS Storage Account with in Resource Group
کانتینر را به عنوان بخشی از حساب ذخیره سازی اضافه کنید Add Container as part of Storage Account
مروری بر آپلود داده ها در سیستم فایل یا کانتینر ADLS Overview of Uploading the data into ADLS File System or Container
Setup Data Set به صورت محلی برای آپلود در ADLS File System یا Container Setup Data Set locally to upload into ADLS File System or Container
فهرست محلی را در سیستم فایل یا کانتینر Azure ADLS آپلود کنید Upload local directory into Azure ADLS File System or Container
Azure ADLS Storage Account را با استفاده از Azure CLI حذف کنید Delete Azure ADLS Storage Account using Azure CLI
حذف Azure Resource Group با استفاده از Azure CLI Delete Azure Resource Group using Azure CLI

برای دسترسی به فایل‌ها از Azure Blob Storage، ADLS را روی Azure Databricks نصب کنید Mount ADLS on to Azure Databricks to access files from Azure Blob Storage

ADLS را روی Azure Databricks نصب کنید - مقدمه Mount ADLS on to Azure Databricks - Introduction
[مواد] - ADLS را روی Azure Databricks نصب کنید [Material] - Mount ADLS on to Azure Databricks
از فضای کاری Azure Databricks اطمینان حاصل کنید Ensure Azure Databricks Workspace
Databricks CLI را در مک یا ویندوز با استفاده از محیط مجازی پایتون راه اندازی کنید Setup Databricks CLI on Mac or Windows using Python Virtual Environment
Databricks CLI را برای فضای کاری جدید Azure Databricks پیکربندی کنید Configure Databricks CLI for new Azure Databricks Workspace
یک Azure Active Directory Application ثبت کنید Register an Azure Active Directory Application
ایجاد Databricks Secret برای AD Application Client Secret Create Databricks Secret for AD Application Client Secret
یک حساب ذخیره سازی ADLS ایجاد کنید Create ADLS Storage Account
نقش IAM در حساب ذخیره سازی را به برنامه Azure AD اختصاص دهید Assign IAM Role on Storage Account to Azure AD Application
راه اندازی مجموعه داده خرده فروشی DB Setup Retail DB Dataset
ظرف یا سیستم فایل ADLS ایجاد کنید و داده ها را آپلود کنید Create ADLS Container or File System and Upload Data
Databricks Cluster را برای نصب ADLS راه اندازی کنید Start Databricks Cluster to mount ADLS
حساب ذخیره سازی ADLS را روی Azure Databricks نصب کنید Mount ADLS Storage Account on to Azure Databricks
اعتبار ADLS Mount Point را روی خوشه های Azure Databricks اعتبار سنجی کنید Validate ADLS Mount Point on Azure Databricks Clusters
نقطه اتصال را از Databricks جدا کنید Unmount the mount point from Databricks
گروه منبع Azure را که برای نصب ADLS بر روی Azure Databricks استفاده می شود، حذف کنید Delete Azure Resource Group used for Mounting ADLS on to Azure Databricks

شروع کار با Databricks در AWS Getting Started with Databricks on AWS

مقدمه ای بر شروع کار با Databricks در AWS Introduction to Getting Started with Databricks on AWS
برای حساب AWS ثبت نام کنید Signup for AWS Account
وارد کنسول مدیریت AWS شوید Login into AWS Management Console
با استفاده از QuickStart، Databricks Workspace را در AWS راه اندازی کنید Setup Databricks Workspace on AWS using QuickStart
وارد Databricks Workspace در AWS شوید Login into Databricks Workspace on AWS
تمیز کردن فضای کار Cleaning up the workspace
بررسی سریع رابط کاربری Databricks در AWS Quick Walkthrough of Databricks UI on AWS
خوشه Databricks Single Node را در AWS ایجاد کنید Create Single Node Databricks Cluster on AWS
با استفاده از AWS Databricks UI داده ها را آپلود کنید Upload Data using AWS Databricks UI
مروری بر ایجاد Databricks Notebook در AWS و اعتبار سنجی فایل ها Overview of Creating Databricks Notebook on AWS and Validating Files
برنامه Spark را با استفاده از AWS Databricks Notebook توسعه دهید Develop Spark Application using AWS Databricks Notebook
وضعیت AWS Databricks Cluster را بررسی کرده و مجددا راه اندازی کنید Review the AWS Databricks Cluster state and restart
قاب داده را در DBFS بنویسید و با استفاده از Databricks Notebook و Spark اعتبار سنجی کنید Write Data frame to DBFS and Validate using Databricks Notebook and Spark
صادرات و واردات نوت بوک های AWS Databricks Export and Import AWS Databricks Notebooks

AWS Essentials برای Databricks - راه اندازی محیط توسعه محلی در ویندوز AWS Essentials for Databricks - Setup Local Development Environment on Windows

مقدمه ای بر راه اندازی محیط محلی با AWS CLI و Boto3 در ویندوز Introduction to Setup Local Environment with AWS CLI and Boto3 on Windows
نمای کلی Powershell در ویندوز 10 یا ویندوز 11 Overview of Powershell on Windows 10 or Windows 11
راه اندازی Ubuntu VM در ویندوز 10 یا 11 با استفاده از wsl Setup Ubuntu VM on Windows 10 or 11 using wsl
راه اندازی Ubuntu VM در ویندوز 10 یا 11 با استفاده از wsl Setup Ubuntu VM on Windows 10 or 11 using wsl
پایتون venv و pip را در اوبونتو راه اندازی کنید Setup Python venv and pip on Ubuntu
AWS CLI را در ویندوز و اوبونتو با استفاده از Pip راه اندازی کنید Setup AWS CLI on Windows and Ubuntu using Pip
AWS IAM User و بارگیری اعتبار ایجاد کنید Create AWS IAM User and Download Credentials
AWS CLI را در ویندوز پیکربندی کنید Configure AWS CLI on Windows
ایجاد محیط مجازی پایتون برای پروژه های AWS Create Python Virtual Environment for AWS Projects
Boto3 را به عنوان بخشی از محیط مجازی پایتون راه اندازی کنید Setup Boto3 as part of Python Virtual Environment
راه اندازی آزمایشگاه Jupyter و اعتبارسنجی boto3 Setup Jupyter Lab and Validate boto3

AWS Essentials برای Databricks - راه اندازی محیط توسعه محلی در مک AWS Essentials for Databricks - Setup Local Development Environment on Mac

مقدمه ای بر راه اندازی محیط توسعه محلی برای AWS در مک Introduction to Setup Local Development Enviroment for AWS on Mac
AWS CLI را در مک راه اندازی کنید Setup AWS CLI on Mac
کاربر AWS IAM را برای پیکربندی AWS CLI تنظیم کنید Setup AWS IAM User to configure AWS CLI
AWS CLI را با استفاده از اعتبار کاربری IAM پیکربندی کنید Configure AWS CLI using IAM User Credentials
راه اندازی محیط مجازی پایتون در مک با استفاده از پایتون 3 Setup Python Virtual Environment on Mac using Python 3
Boto3 را به عنوان بخشی از محیط مجازی پایتون راه اندازی کنید Setup Boto3 as part of Python Virtual Environment
راه اندازی آزمایشگاه Jupyter و اعتبارسنجی boto3 Setup Jupyter Lab and Validate boto3

AWS Essentials برای Databricks - مروری بر راهکارهای ذخیره سازی AWS AWS Essentials for Databricks - Overview of AWS Storage Solutions

شروع کار با AWS S3 Getting Started with AWS S3
[دستورالعمل ها] شروع به کار با AWS S3 [Instructions] Getting Started with AWS S3
Setup Data Set به صورت محلی برای آپلود در s3 Setup Data Set locally to upload to s3
[دستورالعمل ها] تنظیم داده ها به صورت محلی برای آپلود در s3 [Instructions] Setup Data Set locally to upload to s3
اضافه کردن سطل ها و اشیاء AWS S3 Adding AWS S3 Buckets and Objects
[دستورالعمل] افزودن سطل ها و اشیاء AWS s3 [Instruction] Adding AWS s3 Buckets and Objects
کنترل نسخه در AWS S3 Version Control in AWS S3
[دستورالعمل ها] کنترل نسخه در AWS S3 [Instructions] Version Control in AWS S3
AWS S3 Cross-Region Replication برای تحمل خطا AWS S3 Cross-Region Replication for fault tolerance
[دستورالعمل ها] AWS S3 Cross-Region Replication برای تحمل خطا [Instructions] AWS S3 Cross-Region Replication for fault tolerance
تکرار منطقه ای برای بازیابی فاجعه AWS S3 Cross-Region Replication for Disaster Recovery of AWS S3
مروری بر کلاس های ذخیره سازی AWS S3 Overview of AWS S3 Storage Classes
[دستورالعمل ها] مروری بر کلاس های ذخیره سازی AWS S3 یا سطوح ذخیره سازی [Instructions] Overview of AWS S3 Storage Classes or Storage Tiers
نمای کلی AWS S3 Glacier Overview of AWS S3 Glacier
[دستورالعمل ها] نمای کلی Glacier در AWS s3 [Instructions] Overview of Glacier in AWS s3
مدیریت AWS S3 با استفاده از AWS CLI Managing AWS S3 using AWS CLI
[دستورالعمل ها و دستورات] مدیریت سطل ها و اشیاء AWS S3 با استفاده از AWS CLI [Instructions and Commands] Managing AWS S3 buckets and objects using AWS CLI
مدیریت اشیاء در AWS S3 با استفاده از CLI - Lab Managing Objects in AWS S3 using CLI - Lab
[دستورالعمل ها] مدیریت اشیاء در AWS S3 با استفاده از AWS CLI - Lab [Instructions] Managing Objects in AWS S3 using AWS CLI - Lab

AWS Essentials برای Databricks - مروری بر راهکارهای ذخیره سازی AWS AWS Essentials for Databricks - Overview of AWS Storage Solutions

AWS Essentials برای Databricks - مروری بر نقش‌های AWS s3 و IAM برای Databricks AWS Essentials for Databricks - Overview of AWS s3 and IAM Roles for Databricks

مروری بر AWS s3 و IAM برای Databricks Overview of AWS s3 and IAM for Databricks
ایجاد کاربران AWS IAM Creating AWS IAM Users
[دستورالعمل ها] ایجاد کاربران IAM [Instructions] Creating IAM Users
ورود به کنسول مدیریت AWS با استفاده از IAM User Logging into AWS Management Console using IAM User
[دستورالعمل ها] ورود به کنسول مدیریت AWS با استفاده از IAM User [Instructions] Logging into AWS Management Console using IAM User
اعتبار سنجی دسترسی برنامه ای به کاربر AWS IAM Validate Programmatic Access to AWS IAM User
[دستورالعمل‌ها و دستورات] اعتبار دسترسی برنامه‌ای به کاربر IAM را تأیید کنید [Instructions and Commands] Validate Programmatic Access to IAM User
سیاست های مبتنی بر هویت AWS IAM AWS IAM Identity-based Policies
[دستورالعمل ها و دستورات] سیاست های مبتنی بر هویت IAM [Instructions and Commands] IAM Identity-based Policies
مدیریت گروه های کاربری AWS IAM Managing AWS IAM User Groups
[دستورالعمل ها و دستورات] مدیریت گروه های IAM [Instructions and Commands] Managing IAM Groups
مدیریت نقش های AWS IAM Managing AWS IAM Roles
[دستورالعمل ها و دستورات] مدیریت نقش های IAM [Instructions and Commands] Managing IAM Roles
مروری بر سیاست های سفارشی AWS IAM Overview of AWS IAM Custom Policies
[دستورالعمل ها و دستورات] مروری بر سیاست های سفارشی [Instructions and Commands] Overview of Custom Policies
مدیریت هویت های AWS IAM با استفاده از AWS CLI Managing AWS IAM Identities using AWS CLI
[دستورالعمل ها و دستورات] مدیریت IAM با استفاده از AWS CLI [Instructions and Commands] Managing IAM using AWS CLI

AWS Essentials برای Databricks - مروری بر نقش‌های AWS s3 و IAM برای Databricks AWS Essentials for Databricks - Overview of AWS s3 and IAM Roles for Databricks

AWS Essentials برای Databricks - ادغام AWS s3 و کاتالوگ چسب AWS Essentials for Databricks - Integrating AWS s3 and Glue Catalog

مقدمه ای بر ادغام AWS s3 و کاتالوگ چسب با Databricks Introduction to Integrating AWS s3 and Glue Catalog with Databricks
گروه AWS IAM را برای توسعه دهندگان Databricks ایجاد کنید Create AWS IAM Group for Databricks Developers
کاربران AWS IAM را ایجاد کنید و به گروه اضافه کنید Create AWS IAM Users and adding to group
سطل AWS s3 مورد نیاز را برای توسعه دهندگان Databricks ایجاد کنید Create required AWS s3 Bucket for Databricks Developers
اعطای مجوز در AWS s3 Bucket به کاربران گروه از طریق AWS IAM Inline P Grant Permissions on AWS s3 Bucket to the users in group via AWS IAM Inline P
AWS IAM Policy را ضمیمه کنید تا از طریق سیاست IAM به کاربران اجازه دسترسی به Glue را بدهید Attach AWS IAM Policy to grant access to Glue to the users via IAM Policy
برای خزیدن با استفاده از AWS Glue Crawler، JSON Dataset را در s3 آپلود کنید Upload JSON Dataset to s3 to crawl using AWS Glue Crawler
نمای کلی نقش های IAM برای خزنده های چسب Overview of IAM roles for Glue Crawlers
نقش خدمات سفارشی AWS IAM را برای خزنده های چسب ایجاد کنید Create AWS IAM Custom Service Role for Glue Crawlers
ایجاد خزنده چسب برای ایجاد چندین جدول کاتالوگ چسب Create Glue Crawler to Create Multiple Glue Catalog Tables
مروری بر ادغام خوشه های Databricks و نمونه های AWS EC2 Overview of Integration of Databricks Clusters and AWS EC2 Instances
نقش یا نمایه نمونه AWS IAM ایجاد کنید Create AWS IAM Role or Instance Profile
ثبت نمایه نمونه AWS IAM با حساب Databricks Registering AWS IAM Instance Profile with Databricks Account
نمایه نمونه AWS IAM را به Databricks Cluster جدید و همچنین موجود پیوست کنید Attach AWS IAM Instance Profile to new as well as existing Databricks Cluster
با استفاده از AWS IAM Policy و Insta، مجوزهای s3 را به Databricks Clusters اعطا کنید Grant Permissions on s3 to Databricks Clusters using AWS IAM Policy and Insta
اعطای نقش سرویس چسب AWS IAM به خوشه های Databricks از طریق نمایه های نمونه Grant AWS IAM Glue Service Role to Databricks Clusters via Instance Profiles

AWS Essentials برای Databricks - ادغام AWS s3 و کاتالوگ چسب AWS Essentials for Databricks - Integrating AWS s3 and Glue Catalog

راه اندازی محیط توسعه محلی برای Databricks Setup Local Development Environment for Databricks

راه اندازی خوشه Databricks Single Node Setup Single Node Databricks Cluster
Databricks Connect را نصب کنید Install Databricks Connect
Databricks Connect را پیکربندی کنید Configure Databricks Connect
ادغام Pycharm با Databricks Connect Integrating Pycharm with Databricks Connect
کد - ادغام Pycharm با Databricks Connect Code - Integrating Pycharm with Databricks Connect
ادغام Databricks Cluster با Glue Catalog Integrate Databricks Cluster with Glue Catalog
سطل s3 را راه اندازی کنید و مجوزها را اعطا کنید Setup s3 Bucket and Grant Permissions
نصب سطل های s3 در خوشه های Databricks Mounting s3 Buckets into Databricks Clusters
استفاده از dbutils از IDE هایی مانند Pycharm Using dbutils from IDEs such as Pycharm
کد - استفاده از dbutils از IDEهایی مانند Pycharm Code - Using dbutils from IDEs such as Pycharm

راه اندازی محیط توسعه محلی برای Databricks Setup Local Development Environment for Databricks

با استفاده از Databricks CLI Using Databricks CLI

معرفی Introduction
Databricks CLI را نصب و پیکربندی کنید Install and Configure Databricks CLI
تعامل با فایل سیستم با استفاده از CLI. Interacting with File System using CLI.
دریافت جزئیات خوشه با استفاده از CLI Getting Cluster Details using CLI

با استفاده از Databricks CLI Using Databricks CLI

چرخه عمر توسعه برنامه Spark Spark Application Development Life Cycle

محیط مجازی را راه اندازی کرده و Pyspark را نصب کنید Setup Virtual Environment and Install Pyspark
[فرمان ها] - محیط مجازی را راه اندازی کرده و Pyspark را نصب کنید [Commands] - Setup Virtual Environment and Install Pyspark
شروع با Pycharm Getting Started with Pycharm
[کد و دستورالعمل] - شروع به کار با Pycharm [Code and Instructions] - Getting Started with Pycharm
گذراندن آرگومان های زمان اجرا Passing Run Time Arguments
دسترسی به متغیرهای محیط سیستم عامل Accessing OS Environment Variables
شروع کار با Spark Getting Started with Spark
ایجاد تابع برای Spark Session Create Function for Spark Session
[کد و دستورالعمل] - ایجاد عملکرد برای Spark Session [Code and Instructions] - Create Function for Spark Session
تنظیم داده های نمونه Setup Sample Data
خواندن داده ها از فایل ها Read data from files
[کد و دستورالعمل] - داده ها را از فایل ها بخوانید [Code and Instructions] - Read data from files
پردازش داده ها با استفاده از Spark API Process data using Spark APIs
[کد و دستورالعمل ها] - پردازش داده ها با استفاده از Spark API [Code and Instructions] - Process data using Spark APIs
نوشتن داده ها در فایل ها Write data to files
[کد و دستورالعمل] - داده ها را در فایل ها بنویسید [Code and Instructions] - Write data to files
اعتبار سنجی نوشتن داده ها در فایل ها Validating Writing Data to Files
تولید کد Productionizing the Code
[کد و دستورالعمل] - تولید کد [Code and Instructions] - Productionizing the code
تنظیم داده ها برای اعتبار سنجی تولید Setting up Data for Production Validation

چرخه عمر توسعه برنامه Spark Spark Application Development Life Cycle

Databricks Jobs and Cluster Databricks Jobs and Clusters

مقدمه ای بر مشاغل و خوشه ها Introduction to Jobs and Clusters
ایجاد Pool در پلتفرم Databricks Creating Pools in Databricks Platform
ایجاد Cluster در Azure Databricks Create Cluster on Azure Databricks
درخواست افزایش سهمیه پردازنده در Azure Request to Increase CPU Quota on Azure
ایجاد کار روی Databricks Creating Job on Databricks
ارسال مشاغل با استفاده از Job Cluster Submitting Jobs using Job Cluster
ایجاد Pool در Databricks Create Pool in Databricks
اجرای کار با استفاده از خوشه تعاملی متصل به استخر Running Job using Interactive Cluster Attached to Pool
اجرای کار با استفاده از خوشه شغلی متصل به استخر Running Job Using Job Cluster Attached to Pool
تمرین - با استفاده از خوشه تعاملی، برنامه را به عنوان شغل ارسال کنید Exercise - Submit the application as job using interactive cluster

Databricks Jobs and Cluster Databricks Jobs and Clusters

استقرار و اجرای Spark Applications بر روی Databricks Deploy and Run Spark Applications on Databricks

PyCharm را برای Databricks آماده کنید Prepare PyCharm for Databricks
مجموعه داده ها را آماده کنید Prepare Data Sets
انتقال فایل ها به ghactivity Move files to ghactivity
کد Refactor برای Databricks Refactor Code for Databricks
اعتبارسنجی داده ها با استفاده از Databricks Validating Data using Databricks
تنظیم مجموعه داده برای استقرار تولید Setup Data Set for Production Deployment
با استفاده از dbutils به فراداده فایل دسترسی پیدا کنید Access File Metadata using dbutils
ساخت بسته نرم افزاری Deployable برای Databricks Build Deployable bundle for Databricks
اجرای مشاغل با استفاده از Databricks Web UI. Running Jobs using Databricks Web UI.
با استفاده از Databricks CLI جزئیات کار و اجرا را دریافت کنید Get Job and Run Details using Databricks CLI
ارسال مشاغل Databricks با استفاده از CLI Submitting Databricks Jobs using CLI
راه اندازی و اعتبارسنجی Databricks Client Library Setup and Validate Databricks Client Library
بازنشانی Job با استفاده از Jobs API Resetting the Job using Jobs API
Databricks Job را به صورت برنامه نویسی با استفاده از پایتون اجرا کنید Run Databricks Job programmatically using Python
اعتبار سنجی دقیق داده ها Detailed Validation of Data

استقرار و اجرای Spark Applications بر روی Databricks Deploy and Run Spark Applications on Databricks

Spark Jobs را با استفاده از نوت بوک اجرا کنید Deploy Spark Jobs using Notebooks

مدولار کردن نوت بوک ها Modularizing Notebooks
اجرای کار با استفاده از نوت بوک Running Job using Notebook
برنامه Refactor به عنوان نوت بوک Databricks Refactor application as Databricks Notebooks
نوت بوک را با استفاده از توسعه کلاستر اجرا کنید Run Notebook using Development Cluster

Spark Jobs را با استفاده از نوت بوک اجرا کنید Deploy Spark Jobs using Notebooks

با استفاده از Spark Data Frames در Databricks به دریاچه دلتا شیرجه بزنید Deep Dive into Delta Lake using Spark Data Frames on Databricks

معرفی دریاچه دلتا با استفاده از چارچوب داده Introduction to Delta Lake using Data Frames
ایجاد چارچوب داده برای دریاچه دلتا Creating Data Frames for Delta Lake
نوشتن قاب داده با استفاده از قالب دلتا Writing Data Frame using Delta Format
به روز رسانی داده های موجود با استفاده از قالب دلتا Updating Existing Data using Delta Format
داده های موجود را با استفاده از قالب دلتا حذف کنید Delete Existing Data using Delta Format
ادغام یا اضافه کردن داده ها با استفاده از قالب دلتا Merge or Upsert Data using Delta Format
حذف با استفاده از Merge در دریاچه دلتا Deleting using Merge in Delta Lake
با استفاده از Delta Logs در Snapshot Recovery اشاره کنید Point in Snapshot Recovery using Delta Logs
حذف فایل های دلتا غیر ضروری با استفاده از Vacuum Deleting unnecessary Delta Files using Vacuum
فشرده سازی فایل های دریاچه دلتا Compaction of Delta Lake Files

با استفاده از Spark Data Frames در Databricks به دریاچه دلتا شیرجه بزنید Deep Dive into Delta Lake using Spark Data Frames on Databricks

شیرجه عمیق به دریاچه دلتا با استفاده از Spark SQL در Databricks Deep Dive into Delta Lake using Spark SQL on Databricks

معرفی دریاچه دلتا با استفاده از SQL Introduction to Delta Lake using SQL
ایجاد چارچوب داده برای دریاچه دلتا Creating Data Frames for Delta Lake
جدول دریاچه دلتا را ایجاد کنید Create Delta Lake Table
درج داده ها به جدول دریاچه دلتا Insert Data to Delta Lake Table
به‌روزرسانی داده‌ها در جدول دریاچه دلتا Update Data in Delta Lake Table
داده ها را از جدول دریاچه دلتا حذف کنید Delete Data from Delta Lake Table
داده ها را در جدول دریاچه دلتا ادغام یا اضافه کنید Merge or Upsert Data into Delta Lake Table
استفاده از تابع Merge روی Delta Lake Table Using Merge Function over Delta Lake Table
نقطه در Snapshot Recovery با استفاده از Delta Lake Table Point in Snapshot Recovery using Delta Lake Table
جاروبرقی جداول دریاچه دلتا Vacuuming Delta Lake Tables
فشرده سازی جداول دریاچه دلتا Compaction of Delta Lake Tables

شیرجه عمیق به دریاچه دلتا با استفاده از Spark SQL در Databricks Deep Dive into Delta Lake using Spark SQL on Databricks

دسترسی به Databricks Cluster Terminal از طریق وب و همچنین SSH Accessing Databricks Cluster Terminal via Web as well as SSH

Web Terminal را در Databricks Admin Console فعال کنید Enable Web Terminal in Databricks Admin Console
Web Terminal for Databricks Cluster را راه اندازی کنید Launch Web Terminal for Databricks Cluster
SSH را برای Databricks Cluster Driver Node تنظیم کنید Setup SSH for the Databricks Cluster Driver Node
اعتبار اتصال SSH به گره درایور Databricks در AWS Validate SSH Connectivity to the Databricks Driver Node on AWS
محدودیت های SSH و مقایسه با ترمینال وب Limitations of SSH and comparison with Web Terminal

دسترسی به Databricks Cluster Terminal از طریق وب و همچنین SSH Accessing Databricks Cluster Terminal via Web as well as SSH

نصب نرم افزار بر روی Databricks Cluster با استفاده از اسکریپت های init Installing Softwares on Databricks Clusters using init scripts

gen_logs را در Databricks Cluster راه اندازی کنید Setup gen_logs on Databricks Cluster
[فرمان‌ها] gen_logs را در Databricks Cluster تنظیم کنید [Commands] Setup gen_logs on Databricks Cluster
مروری بر اسکریپت های Init برای Databricks Cluster Overview of Init Scripts for Databricks Clusters
ایجاد اسکریپت برای نصب نرم افزار از git در Databricks Cluster Create Script to install software from git on Databricks Cluster
[فرمان ها] اسکریپت برای نصب نرم افزار از git در Databricks Cluster ایجاد کنید [Commands] Create Script to install software from git on Databricks Cluster
اسکریپت init را در محل dbfs کپی کنید Copy init script to dbfs location
[فرمان ها] اسکریپت init را در مکان dbfs کپی کنید [Commands] Copy init script to dbfs location
خوشه مستقل Databricks را با اسکریپت init ایجاد کنید Create Databricks Standalone Cluster with init script

نصب نرم افزار بر روی Databricks Cluster با استفاده از اسکریپت های init Installing Softwares on Databricks Clusters using init scripts

خلاصه سریع جریان ساختار یافته اسپارک Quick Recap of Spark Structured Streaming

Netcat را در Databricks Driver Node اعتبار سنجی کنید Validate Netcat on Databricks Driver Node
پیام‌های گزارش را به سرور وب Netcat در Databricks Driver Node فشار دهید Push log messages to Netcat Webserver on Databricks Driver Node
خواندن گزارش‌های وب سرور با استفاده از Spark Structured Streaming Reading Web Server logs using Spark Structured Streaming
نوشتن داده های جریانی در فایل ها Writing Streaming Data to Files

خلاصه سریع جریان ساختار یافته اسپارک Quick Recap of Spark Structured Streaming

بارهای افزایشی با استفاده از جریان ساختاری جرقه بر روی آجرهای داده Incremental Loads using Spark Structured Streaming on Databricks

مروری بر جریان ساختار یافته اسپارک Overview of Spark Structured Streaming
مراحل پردازش داده های افزایشی Steps for Incremental Data Processing
Cluster را با Instance Profile.mp4 پیکربندی کنید Configure Cluster with Instance Profile.mp4
فایل های GHAarchive را در s3 آپلود کنید Upload GHArchive Files to s3
داده های JSON را با استفاده از Spark Structured Streaming بخوانید Read JSON Data using Spark Structured Streaming
با استفاده از Trigger Once با فرمت فایل دلتا بنویسید Write using Delta file format using Trigger Once
تجزیه و تحلیل داده های GHAArchive در فایل های دلتا با استفاده از Spark Analyze GHArchive Data in Delta files using Spark
فایل های جدید GHActivity JSON را اضافه کنید Add New GHActivity JSON files
بار افزایشی را تأیید کنید Validate Incremental Load
موارد داخلی پردازش فایل جریانی ساختاریافته Spark Internals of Spark Structured Streaming File Processing

بارهای افزایشی با استفاده از جریان ساختاری جرقه بر روی آجرهای داده Incremental Loads using Spark Structured Streaming on Databricks

بارهای افزایشی با استفاده از AutoLoader Cloud Files در Databricks Incremental Loads using autoLoader Cloud Files on Databricks

مروری بر Auto Loader cloudFiles Overview of Auto Loader cloudFiles
فایل های GHAarchive را در s3 آپلود کنید Upload GHArchive Files to s3
با استفاده از Auto Loader cloudFiles داده ها را بنویسید Write Data using Auto Loader cloudFiles
فایل های جدید GHActivity JSON را اضافه کنید Add New GHActivity JSON files
بارگذاری تدریجی داده ها در جدول هدف Load Data Incrementally to Target Table
فایل های جدید GHActivity JSON را اضافه کنید Add New GHActivity JSON files
مروری بر مدیریت رویدادهای S3 با استفاده از خدمات AWS Overview of Handling S3 Events using AWS Services
نقش IAM را برای اعلان‌های فایل cloudFiles پیکربندی کنید Configure IAM Role for cloudFiles file notifications
بارگذاری افزایشی با استفاده از اعلان‌های فایل cloudFiles Incremental Load using cloudFiles File Notifications
سرویس‌های AWS را برای اعلان‌های رویداد cloudFiles مرور کنید Review AWS Services for cloudFiles Event Notifications
بررسی فراداده ایجاد شده برای CloudFiles Checkpointing Review Metadata Generated for cloudFiles Checkpointing

بارهای افزایشی با استفاده از AutoLoader Cloud Files در Databricks Incremental Loads using autoLoader Cloud Files on Databricks

مروری بر خوشه های Databricks SQL Overview of Databricks SQL Clusters

نمای کلی Databricks SQL Platform - مقدمه Overview of Databricks SQL Platform - Introduction
First Query را با استفاده از ویرایشگر SQL Databricks SQL اجرا کنید Run First Query using SQL Editor of Databricks SQL
نمای کلی داشبوردها با استفاده از Databricks SQL Overview of Dashboards using Databricks SQL
مروری بر Databricks SQL Data Explorer برای بررسی پایگاه داده و جداول متاستور Overview of Databricks SQL Data Explorer to review Metastore Database and Tables
از Databricks SQL Editor برای توسعه اسکریپت ها یا پرس و جوها استفاده کنید Use Databricks SQL Editor to develop scripts or queries
بررسی فراداده جداول با استفاده از Databricks SQL Platform Review Metadata of Tables using Databricks SQL Platform
نمای کلی بارگیری داده ها در جداول retail_db Overview of loading data into retail_db tables
Databricks CLI را پیکربندی کنید تا داده ها را به Databricks Platform منتقل کند Configure Databricks CLI to push data into Databricks Platform
داده های JSON را با استفاده از Databricks CLI در DBFS کپی کنید Copy JSON Data into DBFS using Databricks CLI
داده های JSON را با استفاده از Spark API تجزیه و تحلیل کنید Analyze JSON Data using Spark APIs
طرحواره های جدول دلتا را با استفاده از Spark API تجزیه و تحلیل کنید Analyze Delta Table Schemas using Spark APIs
بارگذاری داده ها از Spark Data Frames در جداول دلتا Load Data from Spark Data Frames into Delta Tables
برای اعتبارسنجی داده ها، پرس و جوهای Adhoc را با استفاده از Databricks SQL Editor اجرا کنید Run Adhoc Queries using Databricks SQL Editor to validate data
مروری بر جداول خارجی با استفاده از Databricks SQL Overview of External Tables using Databricks SQL
استفاده از دستور COPY برای کپی داده ها در جداول دلتا Using COPY Command to Copy Data into Delta Tables
نقاط پایانی Databricks SQL را مدیریت کنید Manage Databricks SQL Endpoints

مروری بر خوشه های Databricks SQL Overview of Databricks SQL Clusters

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش مهندسی داده با استفاده از Databricks در AWS و Azure

جزییات دوره

زمان دوره: 18.5 hours

تعداد ویدیو ها: 267

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 9,819

امتیاز مرجع: 4.7 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Durga Viswanatha Raju Gadiraju Asasri Manthena

لینک کوتاه این دوره

https://donyad.com/d/585611

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Durga Viswanatha Raju Gadiraju

مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده

Asasri Manthena

دنیاد

بازاریابی

دیگر

آموزش مهندسی داده با استفاده از Databricks در AWS و Azure

Data Engineering using Databricks on AWS and Azure top rated

مقدمه ای بر مهندسی داده با استفاده از Databricks Introduction to Data Engineering using Databricks

مقدمه ای بر مهندسی داده با استفاده از Databricks Introduction to Data Engineering using Databricks

نمای کلی دوره - مهندسی داده با استفاده از Databricks Overview of the course - Data Engineering using Databricks

منابعی که برای این دوره استفاده می شود کجاست؟ Where are the resources that are used for this course?

شروع کار با Databricks در Azure Getting Started with Databricks on Azure

شروع کار با Databricks در Azure Getting Started with Databricks on Azure

شروع کار با Databricks در Azure - مقدمه Getting Started with Databricks on Azure - Introduction

برای حساب Azure ثبت نام کنید Signup for the Azure Account

ورود و افزایش سهمیه برای vCPU های منطقه ای در Azure Login and Increase Quotas for regional vCPUs in Azure

فضای کاری Azure Databricks را ایجاد کنید Create Azure Databricks Workspace

راه اندازی Azure Databricks Workspace یا Cluster Launching Azure Databricks Workspace or Cluster

بررسی سریع رابط کاربری Azure Databricks Quick Walkthrough of Azure Databricks UI

خوشه تک گره Azure Databricks را ایجاد کنید Create Azure Databricks Single Node Cluster

داده ها را با استفاده از رابط کاربری Azure Databricks آپلود کنید Upload Data using Azure Databricks UI

مروری بر ایجاد نوت بوک و اعتبارسنجی فایل ها Overview of Creating Notebook and Validating Files

برنامه Spark را با استفاده از Azure Databricks Notebook توسعه دهید Develop Spark Application using Azure Databricks Notebook

اعتبار سنجی Spark Jobs با استفاده از Azure Databricks Notebook Validate Spark Jobs using Azure Databricks Notebook

صادرات و واردات نوت بوک Azure Databricks Export and Import of Azure Databricks Notebooks

خاتمه Azure Databricks Cluster و حذف پیکربندی Terminating Azure Databricks Cluster and Deleting Configuration

با حذف Resource Group، فضای کاری Azure Databricks را حذف کنید Delete Azure Databricks Workspace by deleting Resource Group

Azure Essentials برای Databricks - Azure CLI Azure Essentials for Databricks - Azure CLI

Azure Essentials برای Databricks - Azure CLI Azure Essentials for Databricks - Azure CLI

Azure Essentials برای Databricks - Azure CLI Azure Essentials for Databricks - Azure CLI

Azure CLI با استفاده از Azure Portal Cloud Shell Azure CLI using Azure Portal Cloud Shell

شروع کار با Azure CLI در مک Getting Started with Azure CLI on Mac

شروع کار با Azure CLI در ویندوز Getting Started with Azure CLI on Windows

گرم کردن با Azure CLI - نمای کلی Warming up with Azure CLI - Overview

ایجاد گروه منابع با استفاده از Azure CLI Create Resource Group using Azure CLI

ایجاد حساب ذخیره سازی ADLS با در گروه منابع Create ADLS Storage Account with in Resource Group

کانتینر را به عنوان بخشی از حساب ذخیره سازی اضافه کنید Add Container as part of Storage Account

مروری بر آپلود داده ها در سیستم فایل یا کانتینر ADLS Overview of Uploading the data into ADLS File System or Container

Setup Data Set به صورت محلی برای آپلود در ADLS File System یا Container Setup Data Set locally to upload into ADLS File System or Container

فهرست محلی را در سیستم فایل یا کانتینر Azure ADLS آپلود کنید Upload local directory into Azure ADLS File System or Container

Azure ADLS Storage Account را با استفاده از Azure CLI حذف کنید Delete Azure ADLS Storage Account using Azure CLI

حذف Azure Resource Group با استفاده از Azure CLI Delete Azure Resource Group using Azure CLI

برای دسترسی به فایل‌ها از Azure Blob Storage، ADLS را روی Azure Databricks نصب کنید Mount ADLS on to Azure Databricks to access files from Azure Blob Storage

برای دسترسی به فایل‌ها از Azure Blob Storage، ADLS را روی Azure Databricks نصب کنید Mount ADLS on to Azure Databricks to access files from Azure Blob Storage

ADLS را روی Azure Databricks نصب کنید - مقدمه Mount ADLS on to Azure Databricks - Introduction

[مواد] - ADLS را روی Azure Databricks نصب کنید [Material] - Mount ADLS on to Azure Databricks

از فضای کاری Azure Databricks اطمینان حاصل کنید Ensure Azure Databricks Workspace

Databricks CLI را در مک یا ویندوز با استفاده از محیط مجازی پایتون راه اندازی کنید Setup Databricks CLI on Mac or Windows using Python Virtual Environment

Databricks CLI را برای فضای کاری جدید Azure Databricks پیکربندی کنید Configure Databricks CLI for new Azure Databricks Workspace

یک Azure Active Directory Application ثبت کنید Register an Azure Active Directory Application

ایجاد Databricks Secret برای AD Application Client Secret Create Databricks Secret for AD Application Client Secret

یک حساب ذخیره سازی ADLS ایجاد کنید Create ADLS Storage Account

نقش IAM در حساب ذخیره سازی را به برنامه Azure AD اختصاص دهید Assign IAM Role on Storage Account to Azure AD Application

راه اندازی مجموعه داده خرده فروشی DB Setup Retail DB Dataset

ظرف یا سیستم فایل ADLS ایجاد کنید و داده ها را آپلود کنید Create ADLS Container or File System and Upload Data

Databricks Cluster را برای نصب ADLS راه اندازی کنید Start Databricks Cluster to mount ADLS

حساب ذخیره سازی ADLS را روی Azure Databricks نصب کنید Mount ADLS Storage Account on to Azure Databricks

اعتبار ADLS Mount Point را روی خوشه های Azure Databricks اعتبار سنجی کنید Validate ADLS Mount Point on Azure Databricks Clusters

نقطه اتصال را از Databricks جدا کنید Unmount the mount point from Databricks

گروه منبع Azure را که برای نصب ADLS بر روی Azure Databricks استفاده می شود، حذف کنید Delete Azure Resource Group used for Mounting ADLS on to Azure Databricks

شروع کار با Databricks در AWS Getting Started with Databricks on AWS

شروع کار با Databricks در AWS Getting Started with Databricks on AWS

مقدمه ای بر شروع کار با Databricks در AWS Introduction to Getting Started with Databricks on AWS

برای حساب AWS ثبت نام کنید Signup for AWS Account

وارد کنسول مدیریت AWS شوید Login into AWS Management Console

با استفاده از QuickStart، Databricks Workspace را در AWS راه اندازی کنید Setup Databricks Workspace on AWS using QuickStart

وارد Databricks Workspace در AWS شوید Login into Databricks Workspace on AWS

تمیز کردن فضای کار Cleaning up the workspace

بررسی سریع رابط کاربری Databricks در AWS Quick Walkthrough of Databricks UI on AWS

خوشه Databricks Single Node را در AWS ایجاد کنید Create Single Node Databricks Cluster on AWS

با استفاده از AWS Databricks UI داده ها را آپلود کنید Upload Data using AWS Databricks UI

مروری بر ایجاد Databricks Notebook در AWS و اعتبار سنجی فایل ها Overview of Creating Databricks Notebook on AWS and Validating Files

برنامه Spark را با استفاده از AWS Databricks Notebook توسعه دهید Develop Spark Application using AWS Databricks Notebook

وضعیت AWS Databricks Cluster را بررسی کرده و مجددا راه اندازی کنید Review the AWS Databricks Cluster state and restart

قاب داده را در DBFS بنویسید و با استفاده از Databricks Notebook و Spark اعتبار سنجی کنید Write Data frame to DBFS and Validate using Databricks Notebook and Spark

صادرات و واردات نوت بوک های AWS Databricks Export and Import AWS Databricks Notebooks

AWS Essentials برای Databricks - راه اندازی محیط توسعه محلی در ویندوز AWS Essentials for Databricks - Setup Local Development Environment on Windows

AWS Essentials برای Databricks - راه اندازی محیط توسعه محلی در ویندوز AWS Essentials for Databricks - Setup Local Development Environment on Windows

مقدمه ای بر راه اندازی محیط محلی با AWS CLI و Boto3 در ویندوز Introduction to Setup Local Environment with AWS CLI and Boto3 on Windows

نمای کلی Powershell در ویندوز 10 یا ویندوز 11 Overview of Powershell on Windows 10 or Windows 11

راه اندازی Ubuntu VM در ویندوز 10 یا 11 با استفاده از wsl Setup Ubuntu VM on Windows 10 or 11 using wsl

راه اندازی Ubuntu VM در ویندوز 10 یا 11 با استفاده از wsl Setup Ubuntu VM on Windows 10 or 11 using wsl

پایتون venv و pip را در اوبونتو راه اندازی کنید Setup Python venv and pip on Ubuntu