لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش پردازش داده های جریانی با Apache Spark در Databricks
Processing Streaming Data with Apache Spark on Databricks
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
این دوره به شما می آموزد که چگونه از انتزاعات Spark برای استریم داده ها استفاده کنید و با استفاده از API های جریان ساخت یافته Spark در Azure Databricks، تغییراتی را روی داده های جریانی انجام دهید. استریم ساختاری در Apache Spark داده های بلادرنگ را به عنوان جدولی در نظر می گیرد که دائماً اضافه می شود. این منجر به یک مدل پردازش جریانی میشود که از همان APIهای یک مدل پردازش دستهای استفاده میکند - این بر عهده Spark است که عملیات دستهای ما را برای کار بر روی جریان افزایش دهد. بار پردازش جریان از کاربر به سیستم منتقل می شود و پردازش داده های جریانی با Spark را بسیار آسان و شهودی می کند. در این دوره آموزشی، پردازش دادههای جریانی با آپاچی اسپارک در Databricks، شما یاد میگیرید که دادهها را با استفاده از انتزاعات ارائه شده توسط جریان ساختاری Spark استریم و پردازش کنید. ابتدا، تفاوت بین پردازش دسته ای و پردازش جریانی را درک خواهید کرد و مدل های مختلفی را مشاهده خواهید کرد که می توانند برای پردازش داده های جریان استفاده شوند. همچنین ساختار و پیکربندیهای APIهای جریان ساختاری Spark را بررسی خواهید کرد. در مرحله بعد، نحوه خواندن از منبع استریم با استفاده از Auto Loader در Azure Databricks را خواهید آموخت. Auto Loader فرآیند خواندن داده های جریانی از یک سیستم فایل را خودکار می کند و از مدیریت فایل و ردیابی فایل های پردازش شده مراقبت می کند و دریافت داده ها از منابع ذخیره سازی ابری خارجی را بسیار آسان می کند. سپس تبدیلها و تجمیعها را روی دادههای جریانی انجام میدهید و دادهها را با استفاده از مدلهای ضمیمه، تکمیل و بهروزرسانی در فضای ذخیرهسازی مینویسید. در نهایت، نحوه استفاده از انتزاعات SQL مانند در جریان های ورودی را خواهید آموخت. شما به یک منبع ذخیره سازی ابری خارجی، یک سطل Amazon S3 متصل خواهید شد و با استفاده از Auto Loader در جریان خود مطالعه خواهید کرد. سپس کوئری های SQL را برای پردازش داده های خود اجرا خواهید کرد. در طول مسیر، پردازش جریان خود را با استفاده از چک پوینت در برابر خرابی ها مقاوم می کنید و همچنین عملیات پردازش جریان خود را به عنوان یک کار در یک خوشه شغلی Databricks پیاده سازی می کنید. وقتی این دوره را به پایان رساندید، مهارت ها و دانش مربوط به جریان داده در Spark را خواهید داشت که برای پردازش و نظارت بر جریان ها و شناسایی موارد استفاده برای تبدیل داده های جریانی لازم است.
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
بررسی اجمالی دوره
Course Overview
مروری بر معماری استریمینگ در آپاچی اسپارک
Overview of the Streaming Architecture in Apache Spark
بررسی نسخه
Version Check
پیش نیازها و رئوس مطالب دوره
Prerequisites and Course Outline
پردازش دسته ای در مقابل پردازش جریانی
Batch Processing vs. Stream Processing
میکرو دسته ای و پردازش مداوم
Micro-batch and Continuous Processing
پردازش جریان در آپاچی اسپارک
Stream Processing in Apache Spark
کاربردهای مداوم در Spark
Continuous Applications in Spark
نسخه ی نمایشی: خواندن داده های دسته ای و جریانی
Demo: Reading Batch and Streaming Data
نسخه ی نمایشی: اجرای یک جستجوی جریانی ساده
Demo: Running a Simple Streaming Query
نسخه ی نمایشی: پردازش و تجسم جریان ها
Demo: Processing and Visualizing Streams
Janani Ravi یک معمار و مهندس داده خبره Google cloud است.
جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.
نمایش نظرات