摘要
在本 Code Pattern 中,我们将使用 IBM Cloud Pak for Data,并将客户人口统计数据和交易活动数据加载到 IBM Db2 Warehouse 中。然后,我们将使用 Jupyter Notebook 和 Brunel 可视化来分析数据。最后,我们将使用 Spark 机器学习库来创建一个可预测客户流失风险的模型。该模型将作为 Web 服务来部署,并在应用程序中用于推理。
概览
本 Code Pattern 演示了如何使用 Jupyter Notebook 来与 DB2 Warehouse、Brunel 可视化和 Spark 机器学习库进行交互 – 从数据库对象的创建到高级分析以及机器学习模型的开发和部署。本 Code Pattern 是基于 IBM Cloud Pak for Data(这是一种面向 AI 的开放式云原生信息架构)而构建。利用这个完全受管控的综合团队平台,您可以从源头保护数据安全,并灵活地添加首选数据和分析微服务。简化数据的收集、组织和分析方式,以便将 AI 注入整个企业。
本 Code Pattern 中使用的样本数据提供了一家在线股票交易公司的客户统计数据和交易活动数据。在这个用例中,该公司希望预测客户流失的风险,并将有针对性的激励措施整合到面向用户的应用程序中。
学完本 Code Pattern 之后,您将掌握如何:
- 了解 IBM Cloud Pak for Data。
- 将数据加载到 Db2 Warehouse。
- 在 IBM Cloud Pak for Data 中创建一个分析项目。
- 向该项目添加一个远程数据集。
- 使用 Jupyter Notebook。
- 使用 Brunel 图表来显示数据。
- 使用 Spark MLlib 构建和测试机器学习模型。
- 使用 IBM Cloud Pak for Data 将该模型部署为 Web 服务。
- 从外部应用程序访问该模型以进行推断(流失风险预测)。
流程
- 数据已加载到 Db2 Warehouse
- Jupyter Notebook 访问数据
- Jupyter Notebook 使用 Brunel 来显示信息
- Jupyter Notebook 使用 Spark ML 库来创建模型
- Jupyter Notebook 将该模型保存到存储库以便进行部署
- 应用程序通过 REST API 访问该模型
操作说明
可以在README中找到本 Code Pattern 的详细步骤。这些步骤将展示如何:
- 克隆存储库。
- 将数据加载到 Db2 Warehouse。
- 设置一个分析项目。
- 创建 Notebook。
- 插入 Spark DataFrame。
- 运行该 Notebook。
- 分析结果。
- 在 UI 中测试该模型。
- 部署该模型。
- 在应用程序中使用该模型。
本文翻译自:Infuse AI into your application(2019-02-08)