开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

使用 IBM Watson Studio 生成文本摘要和实现可视化

摘要

自动文本摘要属于自然语言处理范畴,通过这种方法,计算机可以理解人类语言、推断人类语言的含义,并对人类语言加以分析。文本摘要可帮助缩短读取时间,简化选择过程,并提高建立索引的效率。与人类摘录者相比,文本摘要算法也减少了主观偏见。个性化的摘要适用于问答系统,因为这些系统旨在提供个性化的信息。通过使用自动或半自动摘要系统,商业摘要服务可增加处理的文本量。

概览

在本 Pattern 中,我们将演示使用 IBM Watson Studio 生成文本摘要并实现文本可视化的方法。文本摘要过程即创建较长文档的简短连贯版本的过程。可采用两种方法来生成文本摘要:抽取式摘要和抽象式摘要。我们将着重关注抽取式摘要,此方法涉及从源文档中选择短语和句子,进而组成新的摘要。所用方法包括对短语相关性进行排序,以便仅选择与源文档主旨最为相关的短语。我们还将演示不同的数据可视化方法,便于大家快速了解。

学完本 Code Pattern 之后,您将掌握如何:

  • 从文档和新闻订阅源中生成文本摘要。
  • 创建有关文本的主题建模以抽取重要主题。
  • 实现可视化以便更深入地理解数据。
  • 对数据摘要和可视化形式加以解释。
  • 分析文本以供进一步处理,生成建议或采取明智的决策。

流程

流程

  1. 登录到 Watson Studio,创建包含对象存储的实例。
  2. 将数据文件上载至对象存储设备
  3. 从 URL 导入 Jupyter Notebook。
  4. 运行处理方法,并为 Notebook 中的主题创建统计模型。
  5. 在 Notebook 中浏览可视化数据,并将输出导出至对象存储设备。

操作说明

可在 README 中获取详细的操作说明。这些步骤将展示如何:

  1. 创建一个 IBM Cloud 帐户。
  2. 创建新的 Watson Studio 项目。
  3. 创建 Notebook。
  4. 添加数据。
  5. 插入凭证。
  6. 运行 Notebook。
  7. 分析结果。

本文翻译自:Text summarization and visualization using IBM Watson Studio(2019-01-10)