摘要
自动文本摘要属于自然语言处理范畴,通过这种方法,计算机可以理解人类语言、推断人类语言的含义,并对人类语言加以分析。文本摘要可帮助缩短读取时间,简化选择过程,并提高建立索引的效率。与人类摘录者相比,文本摘要算法也减少了主观偏见。个性化的摘要适用于问答系统,因为这些系统旨在提供个性化的信息。通过使用自动或半自动摘要系统,商业摘要服务可增加处理的文本量。
概览
在本 Pattern 中,我们将演示使用 IBM Watson Studio 生成文本摘要并实现文本可视化的方法。文本摘要过程即创建较长文档的简短连贯版本的过程。可采用两种方法来生成文本摘要:抽取式摘要和抽象式摘要。我们将着重关注抽取式摘要,此方法涉及从源文档中选择短语和句子,进而组成新的摘要。所用方法包括对短语相关性进行排序,以便仅选择与源文档主旨最为相关的短语。我们还将演示不同的数据可视化方法,便于大家快速了解。
学完本 Code Pattern 之后,您将掌握如何:
- 从文档和新闻订阅源中生成文本摘要。
- 创建有关文本的主题建模以抽取重要主题。
- 实现可视化以便更深入地理解数据。
- 对数据摘要和可视化形式加以解释。
- 分析文本以供进一步处理,生成建议或采取明智的决策。
流程
- 登录到 Watson Studio,创建包含对象存储的实例。
- 将数据文件上载至对象存储设备
- 从 URL 导入 Jupyter Notebook。
- 运行处理方法,并为 Notebook 中的主题创建统计模型。
- 在 Notebook 中浏览可视化数据,并将输出导出至对象存储设备。
操作说明
可在 README 中获取详细的操作说明。这些步骤将展示如何:
- 创建一个 IBM Cloud 帐户。
- 创建新的 Watson Studio 项目。
- 创建 Notebook。
- 添加数据。
- 插入凭证。
- 运行 Notebook。
- 分析结果。
本文翻译自:Text summarization and visualization using IBM Watson Studio(2019-01-10)