آموزش مهندسی داده با استفاده از کافکا و جریان ساختاری اسپارک

Data Engineering using Kafka and Spark Structured Streaming

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: دوره جامع مهندسی داده در مورد ساخت خطوط لوله جریان با استفاده از کافکا و جریان ساختار یافته اسپارک راه اندازی آزمایشگاه پشتیبانی خود با Hadoop (HDFS و YARN)، Hive، Spark و Kafka بررسی اجمالی کافکا برای ساخت خطوط لوله جریان انتقال داده به موضوعات کافکا با استفاده از Kafka Connect با استفاده از انتقال داده‌های منبع فایل به HDFS با استفاده از Kafka Connect با استفاده از پلاگین اتصال HDFS 3 مروری بر جریان ساختار یافته Spark برای پردازش داده‌ها به عنوان بخشی از خط لوله جریان پردازش داده‌های افزایشی با استفاده از جریان ساختار یافته Spark با استفاده از منبع فایل و ادغام هدف فایل Kafka و Spark Streaming Readed - از کافکا تاپیک پیش نیازها:لپ تاپ با پیکربندی مناسب سرعت اینترنت مناسب برای تماشای دروس آزمایشگاه Self Support (دستورالعمل ها به عنوان بخشی از دوره ارائه خواهد شد) یا ITVversity labs دانش برنامه نویسی کاربردی (ترجیحا پایتون یا اسکالا) دانش یا تجربه استفاده از Spark

به عنوان بخشی از این دوره آموزشی، ساخت خطوط لوله جریان را با ادغام کافکا و جریان ساختار یافته اسپارک یاد خواهید گرفت. اجازه دهید جزئیات مربوط به آنچه در این دوره پوشش داده شده است را بررسی کنیم.

  • اول از همه، ما باید محیط مناسبی برای ایجاد خطوط لوله جریان با استفاده از Kafka و Spark Structured Streaming در بالای Hadoop یا هر سیستم فایل توزیع شده دیگری داشته باشیم. به عنوان بخشی از دوره، شما با راه‌اندازی یک آزمایشگاه خود-پشتیبانی با تمام مؤلفه‌های کلیدی مانند Hadoop، Hive، Spark و Kafka روی یک سیستم مبتنی بر لینوکس تک نود شروع می‌کنید.

  • پس از تنظیم محیط، جزئیات مربوط به شروع کار با کافکا را بررسی خواهید کرد. به عنوان بخشی از این فرآیند، شما یک موضوع کافکا ایجاد می‌کنید، پیام‌هایی را در آن موضوع تولید می‌کنید و همچنین پیام‌هایی را از آن موضوع مصرف می‌کنید.

  • همچنین یاد خواهید گرفت که چگونه از Kafka Connect برای وارد کردن داده‌ها از گزارش‌های وب سرور به مبحث کافکا و همچنین وارد کردن داده‌های مبحث کافکا به HDFS به عنوان یک سینک استفاده کنید.

  • هنگامی که کافکا را از منظر دریافت داده درک کردید، مروری بر برخی از مفاهیم کلیدی مرتبط با جریان ساختاری جرقه خواهید داشت.

  • پس از یادگیری مجزای پخش جریانی Kafka و Spark Structured، یک خط لوله استریم برای مصرف داده‌های موضوع کافکا با استفاده از Spark Structured Streaming ایجاد می‌کنید، سپس پردازش می‌کنید و برای اهداف مختلف می‌نویسید.

  • همچنین می‌آموزید که چگونه از پردازش داده‌های افزایشی با استفاده از Spark Structured Streaming مراقبت کنید.

طرح کلی دوره

در اینجا خلاصه ای از دوره ارائه شده است. می‌توانید Cloud9 یا GCP را برای ارائه سروری برای تنظیم محیط انتخاب کنید.

  • تنظیم محیط با استفاده از AWS Cloud9 یا GCP

  • تنظیم خوشه Hadoop Single Node

  • Hive and Spark را در بالای Single Node Hadoop Cluster راه اندازی کنید

  • تنظیم خوشه کافکا تک گره در بالای خوشه هادوپ تک گره

  • شروع کار با کافکا

  • حذف داده ها با استفاده از Kafka Connect - فایل های گزارش سرور وب به عنوان منبعی برای موضوع کافکا

  • حذف داده با استفاده از Kafka Connect - Kafka Topic به HDFS a sink

  • نمای کلی جریان ساختار یافته Spark

  • یکپارچه سازی جریان ساختار یافته کافکا و اسپارک

  • بارهای افزایشی با استفاده از جریان ساختاری Spark

پشتیبانی مبتنی بر Udemy

درصورتی‌که در حین گذراندن دوره با چالش‌های فنی مواجه شدید، نگرانی‌های خود را با استفاده از مسنجر Udemy مطرح کنید. ما مطمئن می شویم که این مشکل در 48 ساعت حل می شود.


سرفصل ها و درس ها

معرفی Introduction

  • مقدمه ای بر مهندسی داده با استفاده از کافکا و جریان ساختار یافته اسپارک Introduction to Data Engineering using Kafka and Spark Structured Streaming

  • نکته مهم برای اولین بار مشتریان مهندسی داده Important Note for first time Data Engineering Customers

  • نکته مهم برای مشتریان ملزومات مهندسی داده (پایتون و اسپارک). Important Note for Data Engineering Essentials (Python and Spark) Customers

  • چگونه می توان 30 روز به آزمایشگاه تکمیلی دسترسی داشت؟ How to get 30 days complementary lab access?

  • چگونه می توان به مطالب استفاده شده برای این دوره دسترسی داشت؟ How to access material used for this course?

شروع کار با کافکا Getting Started with Kafka

  • مروری بر کافکا Overview of Kafka

  • مدیریت موضوعات با استفاده از Kafka CLI Managing Topics using Kafka CLI

  • تولید و مصرف پیام ها با استفاده از CLI Produce and Consume Messages using CLI

  • اعتبارسنجی تولید گزارش‌های وب سرور Validate Generation of Web Server Logs

  • ایجاد وب سرور با استفاده از nc Create Web Server using nc

  • تهیه سیاهههای مربوط به کافکا تاپیک Produce retail logs to Kafka Topic

  • سیاهههای مربوط به خرده فروشی را از موضوع کافکا مصرف کنید Consume retail logs from Kafka Topic

  • برای تولید و مصرف پیام، جلسات کافکا CLI را پاک کنید Clean up Kafka CLI Sessions to produce and consume messages

  • برای تولید کافکا کانکت را تعریف کنید Define Kafka Connect to produce

  • اعتبار کافکا کانکت را برای تولید تأیید کنید Validate Kafka Connect to produce

جذب داده با استفاده از کافکا کانکت Data Ingestion using Kafka Connect

  • مروری بر کافکا کانکت Overview of Kafka Connect

  • کافکا اتصال را برای تولید پیام تعریف کنید Define Kafka Connect to Produce Messages

  • برای تولید پیام، Kafka Connect را اعتبارسنجی کنید Validate Kafka Connect to produce messages

  • پاکسازی Kafka Connect برای تولید پیام Cleanup Kafka Connect to produce messages

  • با استفاده از Kafka Connect، داده ها را در HDFS بنویسید Write Data to HDFS using Kafka Connect

  • پلاگین رابط HDFS 3 Sink Connector را راه اندازی کنید Setup HDFS 3 Sink Connector Plugin

  • مروری بر گروه های مصرف کننده کافکا Overview of Kafka Consumer Groups

  • تنظیمات HDFS 3 Sink Properties Configure HDFS 3 Sink Properties

  • سینک HDFS 3 را اجرا و اعتبار سنجی کنید Run and Validate HDFS 3 Sink

  • پاکسازی Kafka Connect برای مصرف پیام‌ها Cleanup Kafka Connect to consume messages

مروری بر جریان ساختار یافته اسپارک Overview of Spark Structured Streaming

  • درک زمینه جریان Understanding Streaming Context

  • اعتبارسنجی داده های گزارش برای جریان Validate Log Data for Streaming

  • پیام های گزارش را به وب سرور Netcat فشار دهید Push log messages to Netcat Webserver

  • مروری بر منابع ورودی داخلی Overview of built-in Input Sources

  • خواندن گزارش‌های وب سرور با استفاده از Spark Structured Streaming Reading Web Server logs using Spark Structured Streaming

  • نمای کلی حالت های خروجی Overview of Output Modes

  • استفاده از append به عنوان حالت خروجی Using append as Output Mode

  • استفاده از کامل به عنوان حالت خروجی Using complete as Output Mode

  • استفاده از به روز رسانی به عنوان حالت خروجی Using update as Output Mode

  • مروری بر تریگرها در جریان ساختار یافته اسپارک Overview of Triggers in Spark Structured Streaming

  • نمای کلی سینک های خروجی داخلی Overview of built-in Output Sinks

  • پیش نمایش داده های جریانی Previewing the Streaming Data

ادغام جریان ساختار یافته کافکا و اسپارک Kafka and Spark Structured Streaming Integration

  • موضوع کافکا را ایجاد کنید Create Kafka Topic

  • داده ها را از موضوع کافکا بخوانید Read Data from Kafka Topic

  • پیش نمایش داده ها با استفاده از کنسول Preview data using console

  • پیش نمایش داده ها با استفاده از حافظه Preview data using memory

  • تبدیل داده ها با استفاده از Spark API Transform Data using Spark APIs

  • با استفاده از Spark داده ها را در HDFS بنویسید Write Data to HDFS using Spark

  • اعتبارسنجی داده ها در HDFS با استفاده از Spark Validate Data in HDFS using Spark

  • با استفاده از Spark با استفاده از Header، داده ها را در HDFS بنویسید Write Data to HDFS using Spark using Header

  • کافکا اتصال و فایل ها را در HDFS پاک کنید Cleanup Kafka Connect and Files in HDFS

بارهای افزایشی با استفاده از جریان ساختاری جرقه Incremental Loads using Spark Structured Streaming

  • مروری بر محرک های جریان ساختاریافته جرقه Overview of Spark Structured Streaming Triggers

  • مراحل پردازش داده های افزایشی Steps for Incremental Data Processing

  • ایجاد پوشه کاری در HDFS Create Working Directory in HDFS

  • منطق آپلود فایل های GHAarchive Logic to Upload GHArchive Files

  • فایل های GHAarchive را در HDFS آپلود کنید Upload GHArchive Files to HDFS

  • فایل های جدید GHActivity JSON را اضافه کنید Add new GHActivity JSON Files

  • داده‌های JSON را با استفاده از پخش جریانی ساختار یافته Spark بخوانید Read JSON Data using Spark Structured streaming

  • در قالب فایل پارکت بنویسید Write in Parquet File Format

  • تجزیه و تحلیل داده های GHAArchive در فایل های پارکت با استفاده از Spark Analyze GHArchive Data in Parquet files using Spark

  • فایل های جدید GHActivity JSON را اضافه کنید Add New GHActivity JSON files

  • بارگذاری تدریجی داده ها در جدول هدف Load Data Incrementally to Target Table

  • بار افزایشی را تأیید کنید Validate Incremental Load

  • فایل های جدید GHActivity JSON را اضافه کنید Add New GHActivity JSON files

  • با استفاده از maxFilerPerTrigger و lastFirst Using maxFilerPerTrigger and latestFirst

  • بار افزایشی را تأیید کنید Validate Incremental Load

  • فایل های جدید GHActivity JSON را اضافه کنید Add New GHActivity JSON files

  • بار افزایشی با استفاده از فرآیند آرشیو Incremental Load using Archival Process

  • بار افزایشی را تأیید کنید Validate Incremental Load

راه اندازی محیط با استفاده از AWS Cloud9 Setting up Environment using AWS Cloud9

  • شروع کار با Cloud9 Getting Started with Cloud9

  • ایجاد محیط Cloud9 Creating Cloud9 Environment

  • گرم کردن با Cloud9 IDE Warming up with Cloud9 IDE

  • مروری بر EC2 مربوط به Cloud9 Overview of EC2 related to Cloud9

  • باز کردن پورت ها برای Cloud9 Instance Opening ports for Cloud9 Instance

  • مرتبط کردن IP های الاستیک به نمونه Cloud9 Associating Elastic IPs to Cloud9 Instance

  • اندازه حجم EBS نمونه Cloud9 را افزایش دهید Increase EBS Volume Size of Cloud9 Instance

  • نصب Jupyter Lab در Cloud9 Setup Jupyter Lab on Cloud9

  • [فرمان ها] راه اندازی آزمایشگاه Jupyter در Cloud9 [Commands] Setup Jupyter Lab on Cloud9

تنظیم محیط - مروری بر GCP و Provision Ubuntu VM Setting up Environment - Overview of GCP and Provision Ubuntu VM

  • ثبت نام برای GCP Signing up for GCP

  • نمای کلی کنسول وب GCP Overview of GCP Web Console

  • مروری بر قیمت گذاری GCP Overview of GCP Pricing

  • VM اوبونتو را از GCP تهیه کنید Provision Ubuntu VM from GCP

  • راه اندازی Docker Setup Docker

  • اعتبار سنجی پایتون Validating Python

  • راه اندازی آزمایشگاه Jupyter Setup Jupyter Lab

  • Jupyter Lab را به صورت محلی در مک راه اندازی کنید Setup Jupyter Lab locally on Mac

راه اندازی یک گره Hadoop Cluster Setup Single Node Hadoop Cluster

  • مقدمه ای بر Single Node Hadoop Cluster Introduction to Single Node Hadoop Cluster

  • مواد مربوط به تنظیم محیط Material related to setting up the environment

  • پیش نیازهای راه اندازی Setup Prerequisites

  • تنظیم رمز ورود کمتر Setup Password less login

  • Hadoop را دانلود و نصب کنید Download and Install Hadoop

  • پیکربندی Hadoop HDFS Configure Hadoop HDFS

  • HDFS را شروع و اعتبار سنجی کنید Start and Validate HDFS

  • پیکربندی Hadoop YARN Configure Hadoop YARN

  • YARN را شروع و اعتبار سنجی کنید Start and Validate YARN

  • مدیریت Hadoop گره واحد Managing Single Node Hadoop

Hive and Spark را راه اندازی کنید Setup Hive and Spark

  • مجموعه داده ها را برای تمرین تنظیم کنید Setup Data Sets for Practice

  • Hive را دانلود و نصب کنید Download and Install Hive

  • راه اندازی پایگاه داده برای Hive Metastore Setup Database for Hive Metastore

  • Hive Metastore را پیکربندی و راه اندازی کنید Configure and Setup Hive Metastore

  • Hive را راه اندازی و اعتبار سنجی کنید Launch and Validate Hive

  • اسکریپت هایی برای مدیریت کلاستر تک گره Scripts to Manage Single Node Cluster

  • Spark 2 را دانلود و نصب کنید Download and Install Spark 2

  • Spark 2 را پیکربندی کنید Configure Spark 2

  • Spark 2 را با استفاده از CLI ها اعتبار سنجی کنید Validate Spark 2 using CLIs

  • اعتبار سنجی راه اندازی آزمایشگاه Jupyter Validate Jupyter Lab Setup

  • Spark 2 را با Jupyter Lab ادغام کنید Integrate Spark 2 with Jupyter Lab

  • Spark 3 را دانلود و نصب کنید Download and Install Spark 3

  • Spark 3 را پیکربندی کنید Configure Spark 3

  • با استفاده از CLI ها، Spark 3 را اعتبارسنجی کنید Validate Spark 3 using CLIs

  • Spark 3 را با Jupyter Lab ادغام کنید Integrate Spark 3 with Jupyter Lab

راه اندازی خوشه کافکا تک گره Setup Single Node Kafka Cluster

  • کافکا را دانلود و نصب کنید Download and Install Kafka

  • Zookeeper را پیکربندی و راه اندازی کنید Configure and Start Zookeeper

  • کافکا بروکر را پیکربندی و راه اندازی کنید Configure and Start Kafka Broker

  • اسکریپت هایی برای مدیریت خوشه تک گره Scripts to manage single node cluster

  • مروری بر کافکا CLI Overview of Kafka CLI

  • راه اندازی Retail log Generator Setup Retail log Generator

  • تغییر مسیر لاگ ها به کافکا Redirecting logs to Kafka

نمایش نظرات

آموزش مهندسی داده با استفاده از کافکا و جریان ساختاری اسپارک
جزییات دوره
9.5 hours
113
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,774
4.4 از 5
ندارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Durga Viswanatha Raju Gadiraju Durga Viswanatha Raju Gadiraju

مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده