IBM Watson Explorer 通过让用户访问最相关的信息,帮助组织将专业技能扩展到各个组织。新 Watson Explorer Deep Analytics 版本中的认知助理使得知识工作者能够集中精力利用来自数据的洞察,节省了从多个数据源中寻找信息所花费的宝贵时间。

本博客将解释如何使用 Watson Explorer Deep Analytics 版本的基于机器学习的功能来实现认知助理场景。

背景

在大多数组织中,知识工作者通常会阅读一个文档,评估它的内容,并决定下一步的行动。大部分知识工作者会花数个小时来寻找正确的信息。在几分钟内提供相关的信息将有助于他们专注于其核心焦点领域,并改进业务流程。

例如,Laura 是一家食品零售公司的客服人员。她收到了各种各样的客户之声 (VoC) 评论,比如疑问或投诉。一些 VoC 对公司至关重要。如果一位客户投诉“我在包里发现了一些头发。”,那么她应该联系店铺经理,预防该问题再次发生。此外,评审 VoC 需要许多工时。如果传入的 VoC 数据量巨大,Laura 很快将不堪重负。另外,如何对传入的 VoC 做出反应,取决于职员的知识和经验。保持客户体验一致将是一个巨大的挑战。

Figure 1. Laura needs some helps
图 1:  Laura 需要一些帮助

Watson Explorer Deep Analytics 新版引入了两个基于机器学习的功能,可以协助知识工作者,帮助他们变得更加高效。

文档分类

首先,文档分类将传入的 VoC 数据分类为可能的预定义操作,比如“联系客户”或“向店铺反馈”。Laura 使用分类结果作为指导,以制定最后的决策。分类会减少处理 VoC 数据的时间。因此,与过去相比,决策变得更加一致。

搜索相关性

其次,基于机器学习的搜索相关性调优功能可以搜索与传入的文档相似的文档。Laura 引用这些文档来支持她的决策。

Figure 2: Watson Explorer DAE advices to reduce cognitive burden
图 2:  能减轻认知负担的 Watson Explorer DAE 建议

 

使用 Watson Explorer Deep Analytics 进行文档分类

下一节将介绍如何使用 Watson Explorer Deep Analytics 版本来逐步配置和试用文档分类功能。

数据

假设该公司拥有 VoC 互动的历史数据(图 3)。每条记录都包含产品信息(claim_product_line、claim_product)、客户信息(client_segment、client_location、client_sex、client_age)和内容 (body)。此外,过去的决策存储为“标签”。这些标签包括“问题类别”和“操作”。例如,Laura 将表明“吸管从果汁盒上脱落了”的 VoC 分类到 “package_container”。她还将 “feedback_store” 放到该 VoC 中,因为她向店铺提供了反馈,要求检查另一批果汁盒。另外,出于某些原因,一些记录将 “contact_client” 放在一个标签中。例如,污染是一个严重的问题,该公司需要联系客户为其退换货。此外,如果客户是“金卡会员(忠诚客户)”,公司需要为该客户提供特殊待遇。

Figure 3. Document Classifier Training Data
图 3:  文档分类器训练数据

Watson Explorer Document Classification 属于监督式多标签系统。因此,一个文档可以分类到多个类中。对于训练数据,应该将预期值表示为 JSON 数组。

 

创建文档分类器

文档分类模型可以在 Admin GUI 或 Content Miner Application 上创建。以下是在 Admin GUI 上创建文档分类模型的步骤。对于训练数据,可以使用附加的 “voc_label_training.csv”(将要使用的文件重命名为 .csv)

  • 打开 Admin GUI
  • 单击 “Resources” 选项卡
  • 单击 “Add classifier” 按钮
  • 在 “Create Classifier” 页面上,输入 “VoC Classifier” 作为名称。为 “Classifier Type” 选择 “Supervised Multi-labeling”。单击 “Next”
  • 在 “Add a dataset to your collection” 页面上,上传 “voc_label_training.csv”
  • 在 “Configure CSV parser” 窗口上,确认为 “Character set of the csv file” 选择了 “UTF-8”。另外,为 “Delimiter of the columns” 选择 “Comma”。选择 “Use header”。单击 “Next”
  • 在 “Select columns to import” 上,选择 “Date” 作为 “date” 列的 “Type”。单击 “Next”
  • 在 “Import your files” 窗口上,单击 “Start import now” 并等待 “Status” 变为 “Completed”。“Record count” 变成 “200”。单击 “Save”
  • 在 “Supervised Multi-labeling Setting” 页面上,为 “Answer Field” 选择 “label”。对于 “Predicted Field”,请填入 “label_predicted”。对于 “Collection Template”,请填入 “label_classifier_template”。单击 “Next”
  • 在 “Configure collection fields”上,为 “Body field” 选择 “body”。为 “Title field” 选择 “Document URI”。为 “Date field” 选择 “date”。单击 “Next”
  • 在 “Enrich your collection” 页面上,确认为 “Annotators” 选择了 “Part of Speech”。单击 “Next”
  • 在 “Specify the facets for analysis” 页面上,使用默认设置。单击 “Next”
  • 在 “Confirm” 页面上,单击 “Save”
  • “VoC Classifier” 详细信息页面将会打开。单击 “New model”
  • “Create model and start training” 窗口将会打开。单击 “Divide database by ratios”。单击 “Create”。等待创建一个模型。
  • 单击 “Deploy” 按钮。
  •  

    创建集合

    要使用文档分类器,需要一个集合。使用 “voc_nolabel.csv” 作为测试数据来创建一个集合。(将要使用的文件重命名为 .csv)。此数据不包含“标签”信息,但在创建文本索引期间,文档分类器添加了“标签”作为它的分类结果。

    1. 打开 Admin GUI
    2. 单击 “Add collection”
    3. 在 “Collection Template” 页面上,选择 “label_classifier_template”。单击 “Next”
    4. 在 “Create Collection” 页面上,输入 “VoC Classifier” 作为名称。单击 “Next”
    5. 在 “Add a dataset to your collection” 上,上传 “voc_nolabel.csv”
    6. 在 “Configure CSV parser” 窗口上,确认为 “Character set of the csv file” 选择了 “UTF-8”。另外,为 “Delimiter of the columns” 选择 “Comma”。选择 “Use header”。单击 “Next”
    7. 在 “Select columns to import” 上,选择 “Date” 作为 “date” 列的 “Type”。单击 “Next”
    8. 在 “Import your files” 窗口上,单击 “Start import now” 并等待 “Status” 变为 “Completed”。“Record count” 变成 “463”。单击 “Save”
    9. 在 “Configure collection fields” 上,为 “Body field” 选择 “body”。为 “Title field” 选择 “Document URI”。为 “Date field” 选择 “date”。单击 “Next”
    10. 在 “Enrich your collection” 页面上,确认为 “Annotators” 选择了 “Part of Speech”。另外,确认为 “Classifiers” 选择了 “VoC Classifier”。单击 “Next”
    11. 在 “Specify the facets for analysis” 页面上,使用默认设置。单击 “Next”
    12. 在 “Confirm” 页面上,单击 “Save”
    13. 已开始创建索引。等待 “Indexing status” 变成 “Finished”

     

    使用文档分类

    已创建的模型可用作一个注释器。因此,文档分类结果可用作一个内容挖掘因素。每个文档的分类结果都显示为彩色标记(图 4)。可以看到,一些文档有多个标记。

    Figure 4: The result of document classification on Content Miner
    图 4:  Content Miner 上的文档分类结果

    Watson Explorer 基于 REST API。实时 Natural Language Processing (NLP) 是一个强大的 API,它可以使用注释器来动态分析文档。文档分类结果包含在这个实时 NLP 结果中。Watson Explorer 提供了测试 REST API 的接口。

    1. 打开 https:///docs/
    2. 单击 “Authorize” 按钮。“Available Authorization” 窗口将会出现。输入您的用户 ID 和密码。然后,单击 “Authorize”
    3. 找到 “Collection” 部分。单击 “[GET] /api/v1/collections”
    4. 单击 “Try it out”,然后 “Execute” 按钮将会出现。单击 “Execute” 按钮
    5. 返回了一个集合列表。找到 “VoC Classifier” 集合的 “id”。(图 5)
    Figure 5 Result of “list collection”
    图 5:  “list collection”的结果
    1. 找到 “NLP” 部分。单击 “[POST] /api/v1/collections/{collectionId}/analyze”
    2. 单击 “Try it out”
    3. 为 “collectionId ”输入集合 ID。
    4. 输入以下 JSON 作为 “document”(图 6)
    {

    “fields”: {

    “claim_product_line”: “Tea”,

    “claim_product”: “lemon tea”,

    “client_segment”: “Not Member”,

    “client_location”: “Manhattan”,

    “client_sex”: “Male”,

    “client_age”: “20”,

    “body”: “I found some hair inside the bag.”

    },

    “metadata”: {

     

    }

    }

    Figure 6
    图 6
    1. 单击 “Execute” 按钮
    2. 该代码返回了实时 NLP 的结果。它包含文档分类结果及其概率。在这个示例中,结果包含 “feedback_maker”、“contact_client” 和 “contamination_tampering”。
      Figure 7
      图 7
    3. 让我们尝试另一个示例
    {

    “fields”: {

    “claim_product_line”: “Tea”,

    “claim_product”: “lemon tea”,

    “client_segment”: “Not Member”,

    “client_location”: “Manhattan”,

    “client_sex”: “Male”,

    “client_age”: “40”,

    “body”: “The straw was peeled off from the juice pack.”

    },

    “metadata”: {

     

    }

    }

    1. 结果如下。它包含 “feedback_store” 和 “package_container”。
    Figure 8
    图 8
    1. 再尝试一个示例。在本例中,“client_segment” 为 “Golden Card Member”,而不是 “Not Member”。其他字段相同。
    {

    “fields”: {

    “claim_product_line”: “Tea”,

    “claim_product”: “lemon tea”,

    “client_segment”: “Golden Card Member”,

    “client_location”: “Manhattan”,

    “client_sex”: “Male”,

    “client_age”: “40”,

    “body”: “The straw was peeled off from the juice pack.”

    },

    “metadata”: {

     

    }

    }

     

    该代码返回了实时 NLP 的结果。在本例中,除了 “feedback_store” 和 “package_container” 之外,还返回了 “contact_client”。因此,可以看到在文档分类中也考虑了元数据。

    Figure 9
    图 9

    结束语

    Watson Explorer Deep Analytics Edition 引入了新的机器学习和认知建议功能。这些功能已经过全球各种企业的成功测试。例如,通过部署 Watson Explorer,一家日本保险公司在索赔评估期间对医学术语和治疗方案的编码实现了 90% 的准确率,将索赔处理效率提高了 30%,将因错而未付的索赔数量减少了 20%。Watson Explorer Community Edition 免费试用版本中也提供了文档分类功能。

    下载 Watson Explorer 免费试用版来体验新的 Watson Explorer

    本文翻译自: Create actionable insights with IBM Watson Explorer Deep Analytics edition (2018-01-23)

    加入讨论