通过点击流分析确定热门主题  

使用 Apache Spark 和 Kafka 收集、分析和报告网站访问者数据

Last updated | By Prashant Sharma, Rich Hagarty

Description

点击流(Clickstream)分析是收集、分析和报告用户访问了哪些网页的过程,可以提供有关网站使用特征的有用信息。在本 Code Pattern 中,我们将利用点击流分析来演示如何检测 Wikipedia 网站上的实时热门主题。

概览

点击流分析是收集、分析和报告用户访问了哪些网页的过程,可以提供有关网站使用特征的有用信息。

点击流分析的一些流行用例包括:

  • A/B 测试 – 统计分析从版本 A 更改到 B 对网站的用户有何影响。
  • 在购物门户上生成推荐 – 购物门户网站用户的点击模式表明了用户是受何种影响才购买某款商品的。此信息可用来为未来的类似点击模式生成推荐。
  • 针对性广告 – 类似于推荐生成,但跟踪用户的跨网站点击,并利用此使投放的广告更实时准确。
  • 热门主题 – 可使用点击流分析来实时分析或报告热门主题。对于某个特定的时间段,显示获得用户点击次数最多的热门项目。

在本 Code Pattern 中,我们将演示如何检测 Wikipedia 上的实时热门主题。要执行此任务,将会使用 Apache Kafka 作为消息队列,使用 Apache Spark 结构化流引擎来执行分析。这种组合因其实用性、高吞吐量和低延迟特征而闻名。

完成本 Code Pattern 后,您将掌握如何:

  • 使用 Jupyter Notebook 加载、可视化和分析数据。
  • IBM Watson Studio 中运行 Jupyter Notebook。
  • 使用 Apache Spark 结构化流执行点击流分析。
  • 利用 Apache Kafka 构建一个低延迟处理流。

  1. 用户连接 Apache Kafka 服务并设置一个点击流的运行实例。
  2. 在与基础 Apache Spark 服务相连接的 Watson Studio 中运行 Jupyter Notebook。此操作也可以通过运行 Spark Shell 来在本地完成。
  3. Apache Spark 服务从 Apache Kafka 服务读取并处理数据。
  4. 处理后的 Kafka 数据通过 Jupyter Notebook(如果在本地运行,则是通过控制台)转发回用户。

相关博客

相关链接

数据科学简介

通过该教程的学习,您可以了解机器学习的基础知识,包括数据工程、模型学习和操作。

IBM Watson Studio

在配置好的、协作的环境中使用 RStudio、Jupyter 和 Python 分析数据,其中包括 IBM 增值服务,比如托管 Spark。

通过 Apache Spark 和 Hive ETL 分析犯罪数据

在本教程中,您将学习对英国犯罪数据进行分析,从一开始直到获取最终结果,涵盖数据下载、数据转换,将数据加载至分布式数据仓库 Apache Hive,随后使用 Apache Spark 进行后续分析。