本 Code Pattern 是自然语言处理入门学习路径的一部分。
级别 | 主题 | 类型 |
---|---|---|
100 | Watson 自然语言处理简介 | 文章 |
101 | 深入了解 Watson Natural Language Understanding 中的语法 API 功能 | 文章 |
201 | 使用 Watson Natural Language Understanding 呈现非结构化数据 | Code Pattern |
摘要
在此 Code Pattern 中,我们将创建一个 Web 应用,使用 Watson™ Natural Understanding、Apache Tika 和 D3.js 实现非结构化数据可视化。在用户上传选择的本地文件后,应用程序利用 Apache Tika 从非结构化数据文件中提取文本。然后,通过 Watson Natural Language Understanding 传递文本,在此提取实体和概念。最后,应用程序使用 D3.js 库作为可视化工具向用户显示结果。
描述
使用 Watson Natural Understanding Service 的主要优势在于,它的强大分析引擎扩充了数据认知并提供了数据洞察。提取的主要扩充内容包括:
- 实体 – 人员、公司、组织、城市等
- 关键词 – 通常用于建立索引或搜索数据的重要主题
- 概念 – 已识别的一般概念,不一定会在数据中引用
- 情绪 – 数据的整体正面或负面情绪
这些扩充内容将使用 D3.js 显示,这是一个 JavaScript 库,提供强大的可视化技术,有助于赋予数据鲜活的生命力。在此应用中,我们将使用它来显示交互式气泡云中的每个扩充内容,每个元素的大小和位置由其相对重要性来决定。
完成本 Code Pattern 后,您将掌握如何:
- 创建和使用 Watson Natural Language Understanding 的实例
- 利用 Apache Tika 从非结构化文件中提取文本
- 使用 D3.js 显示视觉效果
流程
- 用户为 Watson Natural Language Understanding 服务配置凭证并启动应用。
- 用户选择要处理和加载的数据文件。
- Apache Tika 从数据文件中提取文本。
- 将提取的文本传递至 Watson NLU 进行扩充。
- 使用 D3.js 库在 UI 中使扩充的数据可视化。
操作说明
准备好行动了吗?可参阅 README 获取详细的操作说明。
本文翻译自:Visualize unstructured data using Watson Natural Language Understanding(2018-12-27)