从 Apache Kafka 提取数据

本 Code Pattern 已纳入学习路径:IBM Streams 入门

级别 主题 类型
100 IBM Streams 简介 文章
101 无需编写代码即可创建您的首个 IBM Streams 应用程序 教程
201 从 Apache Kafka 提取数据 Code Pattern
301 使用 Python API 构建流应用程序 Code Pattern
401 使用机器学习模型对流数据评分 Code Pattern

摘要

在本 Code Pattern 中,我们将引导您学习有关创建由 Apache Kafka 支持的流应用程序的基础知识。Apache Kafka 是最受欢迎的开源分布式事件流平台之一,可用于创建实时数据管道和流应用程序。使用 IBM Cloud Pak® for Data 上的 IBM Streams 来构建应用程序。

概览

在本 Code Pattern 中,我们将引导您学习有关创建由 Apache Kafka 支持的流应用程序的基础知识。使用 IBM Cloud Pak for Data 上的 IBM Streams 来构建应用程序。IBM Streams 提供了一个内置的 IDE (Streams Flows),此 IDE 可用于直观地创建流应用程序。IBM Cloud Pak for Data 平台还提供了其他支持,例如,与多个数据源集成、内置分析、Jupyter Notebook 和机器学习。

对于 Apache Kafka 服务,我们将使用 IBM Cloud 上的 IBM Event Streams,这是在 Kafka 平台上构建的高吞吐量消息总线。在以下示例中,我们将其显示为点击流数据(即,在用户浏览在线购物网站时从用户点击中捕获的数据)的源和目标。

流程

流程

  1. 用户在 IBM Streams 中创建流应用程序。
  2. 流应用程序通过 IBM Event Streams 访问 Kafka 服务以发送/接收消息。
  3. 从 IBM Streams 应用程序中生成 Jupyter Notebook。
  4. 用户在 Jupyter Notebook 中执行流应用程序。
  5. Jupyter Notebook 通过 IBM Event Streams 访问 Kafka 服务以发送/接收消息。

操作说明

准备好行动了吗?README 说明了用于执行以下操作的步骤:

  1. 克隆存储库
  2. 在 IBM Cloud 上配置事件流
  3. 创建样本 Kafka 控制台 Python 应用程序
  4. 将 IBM Streams 服务添加到 Cloud Pak for Data 中
  5. 在 Cloud Pak for Data 中创建一个新项目
  6. 在 Cloud Pak for Data 中创建一个 Streams 流程
  7. 以 Kafka 作为源来创建一个 Streams 流程
  8. 使用 Streams Flow 选项生成一个 Notebook
  9. 运行生成的 Streams Flow Notebook

本 Code Pattern 已纳入学习路径:IBM Streams 入门。要继续学习本系列博客文章并了解有关 IBM Streams 的更多信息,可查看使用 Python API 构建流应用程序 Code Pattern。

本文翻译自:Ingest data from Apache Kafka(2020-11-23)