砥砺奋进谱新篇,且看旧貌换新颜。欢迎访问新的 IBM Developer 中文网站! 了解详情

在您的数据记录中发现架构类型

摘要

在本 Code Pattern 中,了解如何使用 IBM® Watson™ 服务和 Jupyter Notebook 在您的记录中查找有意义的架构类型,并根据这组架构类型对新记录进行分类。

概览

记录系统在我们的世界中无处不在,从音乐播放列表、工作清单、医疗记录、客户服务电话到 Github 问题。架构类型被正式定义为模式或模型,其中所有相同类型的对象都将被复制。更通俗地说,您可以将架构类型视为类别、类和主题。

当我们通读这些记录的集合时,我们的思想自然会将这些记录分组为一些架构类型的集合。例如,我们可能将歌曲专辑分类为轻音乐、古典或摇滚。对于少量记录,这个手动过程很实用。但是,大型系统可能拥有数百万条记录,因此我们需要一种自动化的方式来处理它们。此外,在没有这些记录进行大致了解的情况下,我们可能无法事先知道记录中存在的架构类型,因此我们还需要一种方法来发现可以采用的有意义的架构类型。由于记录通常采用非结构化文本的形式,因此这种自动处理要能够理解自然语言。Watson Natural Language Understanding 与统计技术相结合,可以帮助您完成以下操作:

  • 发现记录中有意义的架构类型
  • 根据这种架构类型对新记录进行分组

在此 Code Pattern 中,我们使用一个医疗记录数据集来展示整个过程。数据由 ezDI 提供,包括 249 个匿名的实际医疗记录。

完成本 Code Pattern 后,您将掌握如何:

  • 通过 API 调用来使用 Watson Natural Language Understanding 服务
  • 通过 SDK 使用 IBM Cloud Object Store 服务,以保存数据和结果
  • 对 Watson Natural Language Understanding 提供的结果进行统计分析
  • 在 Jupyter Notebook 或 Web 界面中,通过数据的图形解释来探索架构类型

流程

流程

  1. 用户从 ezDI 下载自定义医疗记录数据集,然后准备要处理的文本数据。
  2. 用户通过提供的应用程序用户界面或 Jupyter Notebook 与 Watson Natural Language Understanding 服务进行交互。
  3. 用户对 Watson Natural Language Understanding 提供的结果进行一系列统计分析。
  4. 用户使用图形显示来探索分析发现的架构类型。
  5. 用户通过提供新记录作为输入来对其进行分类,并查看将其映射到哪个架构类型。

操作说明

README 文件中可找到本 Code Pattern 的详细步骤。这些步骤将展示如何:

  1. 克隆存储库。
  2. 创建 IBM Cloud 服务。
  3. 下载并准备数据。
  4. 运行 Jupyter Notebook。
  5. 运行 Web 用户界面。

本文翻译自:Discover archetypes in your data records(2020-01-13)