开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

通过点击流分析确定热门主题

摘要

点击流(Clickstream)分析是收集、分析和报告用户访问了哪些网页的过程,可以提供有关网站使用特征的有用信息。在本 Code Pattern 中,我们将利用点击流分析来演示如何检测 Wikipedia 网站上的实时热门主题。

概览

点击流分析是收集、分析和报告用户访问了哪些网页的过程,可以提供有关网站使用特征的有用信息。

点击流分析的一些流行用例包括:

  • A/B 测试 – 统计分析从版本 A 更改到 B 对网站的用户有何影响。
  • 在购物门户上生成推荐 – 购物门户网站用户的点击模式表明了用户是受何种影响才购买某款商品的。此信息可用来为未来的类似点击模式生成推荐。
  • 针对性广告 – 类似于推荐生成,但跟踪用户的跨网站点击,并利用此使投放的广告更实时准确。
  • 热门主题 – 可使用点击流分析来实时分析或报告热门主题。对于某个特定的时间段,显示获得用户点击次数最多的热门项目。

在本 Code Pattern 中,我们将演示如何检测 Wikipedia 上的实时热门主题。要执行此任务,将会使用 Apache Kafka 作为消息队列,使用 Apache Spark 结构化流引擎来执行分析。这种组合因其实用性、高吞吐量和低延迟特征而闻名。

完成本 Code Pattern 后,您将掌握如何:

  • 使用 Jupyter Notebooks 加载、可视化和分析数据。
  • IBM Watson Studio 中运行 Jupyter Notebook。
  • 使用 Apache Spark 结构化流执行点击流分析。
  • 利用 Apache Kafka 构建一个低延迟处理流。

流程

flow

  1. 用户连接 Apache Kafka 服务并设置一个点击流的运行实例。
  2. 在与基础 Apache Spark 服务相连接的 Watson Studio 中运行 Jupyter Notebook。此操作也可以通过运行 Spark Shell 来在本地完成。
  3. Apache Spark 服务从 Apache Kafka 服务读取并处理数据。
  4. 处理后的 Kafka 数据通过 Jupyter Notebook(如果在本地运行,则是通过控制台)转发回用户。

操作说明

请在 README 中找到此 Code Pattern 的详细步骤。有两种模式可以执行此 Code Pattern:

  • 使用 Spark shell 在本地运行。
  • 使用 IBM Watson Studio 的 Jupyter notebook 运行。注意:在此模式下运行需要一个 Message Hub 服务,该服务收取一定的费用。

本文翻译自:Determine trending topics with clickstream analysis(2019-03-28)