آموزش پردازش جریانی داده با Databricks و PySpark در ۱۵ روز - آخرین آپدیت

دانلود Databricks Stream Processing with PySpark in 15 Days

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

آموزش جامع استریمینگ ساختاریافته با PySpark در Databricks: پروژه عملی از ابتدا تا انتها

با این دوره، پردازش استریمینگ بلادرنگ (Real-time Streaming) با PySpark در Databricks را به صورت عملی بیاموزید. یک پروژه کامل و واقعی را از ابتدا تا انتها پیاده‌سازی کنید.

آنچه در این دوره خواهید آموخت:

  • مفهوم پردازش استریم بلادرنگ در Databricks
  • آشنایی با APIهای Spark Structured Streaming و معماری Medallion
  • کار با منابع و مقاصد مختلف استریمینگ
  • کار با منبع Kafka و یکپارچه‌سازی با Spark
  • تجمیع با Windowing با استفاده از Spark Stream و Streaming Joins و Aggregation
  • مفهوم تبدیل‌های استریمینگ State-less و State-full
  • مدیریت مشکلات حافظه در استریمینگ
  • کار با پلتفرم Azure Databricks
  • پروژه نهایی واقعی: اپلیکیشن استریمینگ در Lakehouse

پیش‌نیاز: آشنایی با زبان برنامه‌نویسی Python

مروری بر دوره

در دنیای داده‌محور امروز، پردازش استریم بلادرنگ یک مهارت حیاتی برای مهندسان نرم‌افزار، معماران داده و مهندسان داده است. این دوره، Apache Spark و Databricks - پردازش استریم در Lakehouse، به منظور تجهیز فراگیران به تجربه عملی در استریمینگ داده بلادرنگ با استفاده از Apache Spark، Databricks Cloud و PySpark API طراحی شده است.

چه مبتدی باشید چه یک متخصص باتجربه، این دوره دانش و مهارت‌های عملی مورد نیاز برای ساخت پایپ‌لاین‌های پردازش داده بلادرنگ در Databricks را در اختیار شما قرار می‌دهد و از Apache Spark Structured Streaming برای پردازش داده با عملکرد بالا استفاده می‌کند.

با رویکرد کدنویسی زنده، شما بینش عمیقی در مورد معماری استریمینگ، صف‌های پیام، برنامه‌های کاربردی مبتنی بر رویداد و سناریوهای پردازش داده دنیای واقعی به دست خواهید آورد.

چرا باید پردازش استریم بلادرنگ را یاد بگیرید؟

پردازش استریم بلادرنگ در حال تبدیل شدن به یک فناوری حیاتی برای کسب‌وکارهایی است که حجم عظیمی از داده‌های تولید شده توسط دستگاه‌های IoT، تراکنش‌های مالی، پلتفرم‌های رسانه‌های اجتماعی، وب‌سایت‌های تجارت الکترونیک و غیره را مدیریت می‌کنند. شرکت‌ها به بینش‌ها و تصمیمات فوری نیاز دارند و Apache Spark Structured Streaming بهترین ابزار برای مدیریت داده‌های استریمینگ در مقیاس بزرگ به طور کارآمد است.

با ظهور معماری Lakehouse و پلتفرم‌هایی مانند Databricks، سازمان‌ها به سمت تجزیه و تحلیل داده یکپارچه حرکت می‌کنند، جایی که داده‌های ساختاریافته و بدون ساختار می‌توانند در زمان واقعی پردازش شوند. این دوره تضمین می‌کند که با تسلط بر فناوری‌های استریمینگ و ساخت برنامه‌های پردازش استریم مقیاس‌پذیر و مقاوم در برابر خطا، در این صنعت پیشرو خواهید ماند.

چه چیزی یاد خواهید گرفت؟

این دوره یک رویکرد مثال‌محور برای آموزش پردازش استریم بلادرنگ در پیش می‌گیرد. در اینجا چیزی است که یاد خواهید گرفت:

  1. مبانی پردازش استریم

    • معرفی پردازش استریم بلادرنگ و موارد استفاده آن
    • درک پردازش داده دسته‌ای در مقابل استریمینگ
    • مروری بر Apache Spark Structured Streaming
    • اجزای اصلی Databricks Cloud و معماری Lakehouse
  2. شروع به کار با Apache Spark & Databricks

    • راه‌اندازی یک فضای کاری Databricks برای استریمینگ بلادرنگ
    • درک Databricks Runtime و اجرای بهینه‌سازی شده Spark
    • مدیریت داده با Delta Lake و Databricks File System (DBFS)
  3. ساخت پایپ‌لاین‌های استریمینگ بلادرنگ با PySpark

    • معرفی PySpark API برای استریمینگ
    • کار با Kafka، Event Hubs و Azure Storage برای دریافت داده
    • پیاده‌سازی تبدیل و تجمیع داده بلادرنگ
    • نوشتن داده‌های استریمینگ در Delta Lake و سایر فرمت‌های ذخیره‌سازی
    • مدیریت داده‌های دیرهنگام و Watermarking
    • بهینه‌سازی عملکرد استریمینگ در Databricks
    • تنظیم برنامه‌های Spark Structured Streaming برای تأخیر کم
    • پیاده‌سازی Checkpointing و پردازش State-full
    • درک تحمل خطا و استراتژی‌های بازیابی
    • استفاده از Databricks Job Clusters برای بارهای کاری بلادرنگ
  4. یکپارچه‌سازی پردازش استریم با اکوسیستم Databricks

    • استفاده از Databricks SQL برای تجزیه و تحلیل بلادرنگ
    • اتصال Power BI، Tableau و سایر ابزارهای تجسم
    • خودکارسازی پایپ‌لاین‌های داده بلادرنگ با Databricks Workflows
    • استقرار برنامه‌های استریمینگ با Databricks Jobs
  5. پروژه نهایی - برنامه استریمینگ بلادرنگ سرتاسری

    • طراحی یک پایپ‌لاین پردازش داده بلادرنگ از ابتدا
    • پیاده‌سازی دریافت داده از Kafka یا Event Hubs
    • پردازش داده‌های استریمینگ با استفاده از تبدیل‌های PySpark
    • ذخیره و تجزیه و تحلیل بینش‌های بلادرنگ با استفاده از Delta Lake & Databricks SQL
    • استقرار راه‌حل خود با استفاده از Databricks Workflows & CI/CD Pipelines

چه کسی باید این دوره را بگذراند؟

این دوره برای افراد زیر مناسب است:

  • مهندسان نرم‌افزاری که می‌خواهند برنامه‌های کاربردی مقیاس‌پذیر و بلادرنگ توسعه دهند.
  • مهندسان و معماران داده که پایپ‌لاین‌های استریمینگ در سطح سازمانی را طراحی و ایجاد می‌کنند.
  • مهندسان یادگیری ماشین که به دنبال پردازش داده‌های بلادرنگ برای مدل‌های AI/ML هستند.
  • متخصصان Big Data که با چارچوب‌های استریمینگ مانند Kafka، Flink یا Spark کار می‌کنند.
  • مدیران و معماران راه‌حل که بر پیاده‌سازی داده‌های بلادرنگ نظارت می‌کنند.

چرا این دوره را انتخاب کنید؟

این دوره با یک رویکرد عملی طراحی شده است و تضمین می‌کند که شما نه تنها مفاهیم را یاد می‌گیرید بلکه آنها را در سناریوهای واقعی نیز پیاده‌سازی می‌کنید.

  • جلسات کدنویسی زنده: با انجام، گام به گام پیاده‌سازی کنید.
  • موارد استفاده واقعی: دانش خود را در نمونه‌های مرتبط با صنعت به کار ببرید.
  • بهینه‌سازی شده برای Databricks: بهترین شیوه‌ها برای استقرار برنامه‌های استریمینگ در Azure Databricks.
  • پروژه نهایی: تجربه عملی در ساخت یک پایپ‌لاین استریمینگ سرتاسری به دست آورید.

پشته فناوری و محیط

این دوره با استفاده از آخرین فناوری‌ها ساخته شده است:

  • Apache Spark 3.5: قدرتمندترین نسخه برای استریمینگ ساختاریافته.
  • Databricks Runtime 14.1: عملکرد بهینه‌سازی شده Spark در فضای ابری.
  • Azure Databricks: تجزیه و تحلیل داده بدون سرور و مقیاس‌پذیر.
  • Delta Lake: ذخیره‌سازی مطمئن برای استریمینگ ساختاریافته.
  • Kafka & Event Hubs: معماری پیام‌رسانی و رویداد محور بلادرنگ.
  • CI/CD Pipelines: استقرار کارآمد برنامه‌های بلادرنگ.

همین حالا ثبت‌نام کنید و سفر خود را در استریمینگ داده بلادرنگ آغاز کنید!

در پایان این دوره، در ساخت، استقرار و مدیریت برنامه‌های استریمینگ بلادرنگ با استفاده از Apache Spark Structured Streaming در Databricks Cloud اطمینان خواهید داشت.

گام بعدی را در حرفه خود بردارید و امروز در پردازش استریم بلادرنگ مهارت پیدا کنید.


سرفصل ها و درس ها

معرفی اسپارک استریمینگ در دیتابریکس Introduction of Spark Streaming in Databricks

  • معرفی اسپارک استریمینگ در دیتابریکس Introduction of Spark Streaming in Databricks

  • مقایسه فرآیند بین بچ و استریم Process Comparison Between Batch & Stream

  • بحث سطح بالای پروژه در مورد اسپارک استریمینگ High Level Project Discussion on Spark Streaming

راه اندازی محیط دیتابریکس و تجزیه و تحلیل ویژگی ها Databricks Environment Set up and Feature Analysis

  • ایجاد حساب کاربری در دیتابریکس نسخه کامیونیتی Account Creation in Databricks Community Edition

  • بررسی اجمالی ویژگی های دیتابریکس Databricks Feature Overview

  • خواندن فایل های متنی در دیتابریکس Read Text Files in Databricks

  • پاکسازی داده ها در دیتابریکس با استفاده از پای اسپارک Data Cleaning in Databricks Using PySpark

  • ذخیره فریم داده در جدول دیتابریکس Data Frame Save into Databricks Table

پروژه 1-استریم داده های متنی با استفاده از پای اسپارک Project-1 Text Data Streaming Using PySpark

  • ایجاد کلاس و تابع برای استریم داده های متنی Create Class and Function for Text Data Streaming

  • ایجاد تابع پاکسازی داده برای استریم داده های متنی Create Data Cleaning Function for Text Data Streaming

  • ذخیره فریم داده به عنوان جدول در دیتابریکس برای استریم داده های متنی Data Frame Save as Table in Databricks for Text Data Streaming

  • تست واحد قسمت 1 در دیتابریکس برای استریم داده های متنی Unit Test Part-1 in Databricks for Text Data Streaming

  • تست واحد قسمت 2 در دیتابریکس برای استریم داده های متنی Unit Test Part-2 in Databricks for Text Data Streaming

پروژه 2-استریم داده های JSON با استفاده از پای اسپارک Project-2 JSON Data Streaming Using PySpark

  • بارگذاری فایل JSON برای استریم JSON File Upload for Streaming

  • خواندن فایل JSON در دیتابریکس Read JSON file in Databricks

  • تهیه طرحواره برای استریم فایل JSON Prepare Schema for JSON File Streaming

  • استفاده از عبارت Select و تابع Explode برای مسطح کردن از آبجکت و آرایه Use Select Expression & Explode Function To Make Flatten From Object & Array

نمایش نظرات

آموزش پردازش جریانی داده با Databricks و PySpark در ۱۵ روز
جزییات دوره
2.5 hours
17
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
20
4.5 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Md Samiul Islam Md Samiul Islam

مهندس ارشد داده/مهندس یادگیری ماشین