自然语言分类 (NLC) 与自然语言处理 (NLP) 领域密切相关,其他相关技术还包括自然语言理解 (NLU) 和自然语言生成 (NLG)。IBM Watson™ 提供基于云的服务,这项服务被形象地称为 Watson Natural Language Classifier,它支持开发人员创建文本分类器,通过使用认知计算方法,它将返回最佳匹配的预定义分类器。

我发现了解 NLC 最简单的方法就是使用快速入门教程中的样本数据。您可以观看该教程的演示视频,它使用 Watson Natural Language Classifier 对有关天气的问题进行分类。在本教程中,我们使用一个小型的文本输入数据集来充当训练数据。训练数据包括天气类的训练句子,比如 “How is the weather outside?” 或 “Is it snowing?”,以及温度类的训练句子,比如 “What’s the temperature outside?” 或 “Is it cold outside?” 即使使用小型数据集,我们也会看到训练数据中不存在问题的相当高的准确性,比如涉及“暴雪”或“下雨”的问题。

最近,我们创建了“使用 Watson 对 ICD-10 数据进行分类”这一 Code Pattern 来详细阐述。我们创建了基于 Python 的小型 Web 应用,使用了较大的数据集,即 ICD-10 数据集,用于根据 ICD-10 名称对医疗诊断数据进行分类。在我们的 GitHub 存储库中查看此代码,生成分支代码、对其进行克隆和修改以符合您的用例。

文本分类可能会非常有用,这样的场景不难想象。将电子邮件、推文或帖子分类为垃圾邮件或恶意邮件就是个容易理解的例子。或许,我们可以使用 Watson Natural Language Classifier 来查阅常见问题及解答或其他文档(比如 ICD-10)。

若想了解有关 Watson Natural Language Classifier 的更多信息,请查看下列资源:

祝您构建愉快!

本文翻译自: Learn how to create a Python web app that uses Watson Natural Language Classifier (2018-05-01)

加入讨论