Flink یک سیستم متغیر ، قابل تحمل و در مقیاس بزرگ است که با مجموعه داده های محدود و غیرمحدود با استفاده از همان معماری زمینه ای جریان اول کار می کند.
Apache Flink بر اساس مفهوم معماری جریان اول ساخته شده است که جریان منبع حقیقت است.
در این دوره ، شما به جریانی Spark Structured Streaming فرو می روید ، ویژگی های آن را در عمل مشاهده می کنید و از آن برای ساخت خطوط لوله جریان به پایان ، پیچیده و قابل اعتماد با استفاده از PySpark استفاده می کنید. و شما از پلت فرم Azure Databricks برای ساخت و اجرای آنها استفاده خواهید کرد.
جریان ساختاری موتور پردازش جریان مقیاس پذیر و متحمل خطا در Apache Spark 2 است که می تواند برای پردازش جریان های با سرعت بالا مورد استفاده قرار گیرد.
گردش اطلاعات نشان دهنده یک رویکرد کاملاً متفاوت نسبت به موتورهای محاسباتی مانند Spark در پردازش داده های بزرگ است. گردش اطلاعات بدون سرور و کاملاً مدیریت شده است و از خطوط لوله در حال اجرا که با استفاده از API های Apache Beam طراحی شده اند پشتیبانی می کند.
در این گفتگو، زمینهای را که در آن مدل پردازش دستهای قدیمی متولد شد، دلایلی که در پس مدل پردازش جریانی جدید وجود دارد، نحوه مقایسه آنها، کشف مزایا و معایب، و فهرستی از فناوریهای موجود که دومی را پیادهسازی میکنند، تعریف خواهیم کرد.
در این گفتار ، ما خط تولید داده های جریانی را با استفاده از چیزی غیر از دستان خالی ، Kafka Connect و ksqlDB خواهیم ساخت.
جریان ساختاری موتور پردازش جریان مقیاس پذیر و متحمل خطا در Apache Spark 2 است. فریم داده ها در Spark 2.x از داده های بی نهایت پشتیبانی می کنند ، بنابراین به طور موثر برنامه های دسته ای و جریان را متحد می کند.
اجرای تجزیه و تحلیل جریان می تواند دشوار باشد. این دوره به شما می آموزد که با استفاده از Spark Strukted Streaming پردازش داده در زمان واقعی را مدلسازی کنید.
مدل واحد Apache Beam به ما امکان پردازش دسته ای و همچنین پخش جریانی داده را با استفاده از همان API می دهد. چندین مورد اجرا مانند Google Cloud Dataflow ، Apache Spark و Apache Flink با Beam سازگار هستند.
Apache Beam یک مدل واحد منبع باز برای پردازش داده های دسته ای و جریانی به روشی موازی است. خطوط لوله Beam که برای پشتیبانی از Backend Cloud Dataflow Google ساخته شده اند ، می توانند بر روی هرگونه پردازش باطله پشتیبانی شده اجرا شوند.
Apache Pulsar سیستمی بسیار مقیاس پذیر ، با توان عملیاتی بالا است که هم با صف و هم با پخش جریانی داده ها با سهولت باور نکردنی کار می کند. این دوره تمام مفاهیم و ابزارهای لازم برای استفاده از Apache Pulsar را در پروژه های شما آموزش می دهد.