80% 的企业数据为非结构化数据,因此被称为“暗”数据,因为如果没有高级技术对数据进行有效处理,就无法揭示出数据中隐藏的真正价值。例如,车辆事故报告中包含各种结构化数据点(如车辆型号、受伤人数或者位置),以及用于描述事故状况的非结构化数据(如“在不平整路面上踩刹车时车辆未停止行驶,导致发生事故”)。文本分析(或自然语言处理)可从文本中提取关键信息,并将此信息转换为结构化数据。在此示例中,“刹车”被注释为“组件”,“不平整路面”被注释为“环境”,从而实现将文本像结构化数据一样进行处理。因此,计算机可以将所发生状况的描述离散事件特征结合在一起进行处理。

什么是 Watson Explorer for Data Science Experience?

Watson Explorer (WEX) 是一个市场领先的搜索和内容挖掘平台,由 IBM 研究院建立,旨在为企业提供深层文本分析功能。Watson Explorer for Data Science Experience (DSX) 将 Watson Explorer 文本挖掘功能与 DSX 的功能紧密集成,用于实施数据科学家的工作流程,从而根据文本数据中隐藏的信息来制定出考虑周全的业务决策。

图 1 描述了数据科学家如何使用机器学习创建预测模型的典型工作流程。

图 1.创建预测模型的工作流程

在图 1 中,以上蓝框表示利用 Watson Explorer for Data Science Experience 增强的任务。绿框表示通过将 Watson Explorer 与 Data Science Experience 和平台上嵌入的工具(例如,SPSS Modeler 和 Notebook)相集成而增强的任务。

探索和理解数据

Watson Explorer for Data Science Experience 将 Watson Explorer 专有的 Content Miner 技术与 DSX Local 的用户界面紧密集成起来。首先,数据科学家可以创建一个 Watson Explorer 集合,作为 DSX Local 资产。在图 2 中,我们创建了 Retail Voice of the Customer 集合。

图 2.Watson Explorer 集合作为 DSX Local 资产进行管理。

创建此集合后,可将文本数据从 DSX Local 数据集注入此集合。随后,数据科学家可以使用嵌入 DSX Local 用户界面的 Watson Explorer Content Miner,探索此集合中的文本数据。Content Miner 可通过统计评分方法(例如,文本数据中的关键字频率或关联)来直观显示信息。这种非常直观且易于操作的文本分析方法为数据科学家提供了快速系统化理解文本信息的途径,而无需分析大量非结构化数据。

图 3.DSX Local 中的 Watson Explorer Content Miner

为机器学习模型提取相关特征

在数据科学家理解文本数据中所包含的信息后,可决定稍后要用于分析的文本特征。例如,数据科学家可能想要根据车辆事故原因(如“由刹车设备导致的事故”或“由发动机导致的事故”)对车辆事故报告进行分类。通过 Content Miner,数据科学家可以使用组件名称进行分类。例如,“ABS”或“刹车片”之类的关键字可能与归入“由刹车设备导致的事故”一类的文本数据密切关联。因此,数据科学家可将组件名称注册到 Watson Explorer 的用户字典注释器中。根据注释器设置,Watson Explorer 可注释关键字,并将注释结果转换为向量化数据。向量化数据称为“特征”,此流程即“特征提取”流程。这些特征可用作使用机器学习的预测模型的输入。

训练、部署、评估和使用机器学习模型

DSX Local 为数据科学家提供了团队合作的机会。Watson Explorer for Data Science Experience 利用非结构化数据分析和可视化扩展了 DSX Local 的功能,进而满足团队新人和专家的不同需求。

DSX Notebook 是面向具有编程背景的数据科学家的分析工具。可在 Notebook 上使用 Python API 调用 Watson Explorer 的功能(图 4)。此 API 还支持数据科学家使用特征提取(图 5)功能。因此,数据科学家可使用生成的向量化数据来创建预测模型(图 6)。最后,可将模型部署至模型管理和部署服务器,以便进行联机评分。

图 4.可从 Notebook 将 Watson Explorer 的功能作为 Python 库调用

图 5.WEX Feature Extractor 可将文本数据转化为向量化数据

图 6.使用 Watson Explorer 生成的向量化数据创建逻辑回归模型

SPSS Modeler 是 DSX 中另一种用于直观开发预测模型的工具。SPSS Modeler 上最近引入的 WEX Feature Extractor 节点可调用 Watson Explorer 的特征提取功能,从而能够轻松将文本数据转化为向量化数据(图 7)。随后,其他 SPSS 节点可使用向量化数据作为输入来创建预测模型

图 7.SPSS Modeler 中用于 DSX Local 的 WEX Feature Extractor 节点

小结

Watson Explorer for Data Science Experience (DSX) 通过文本分析功能增强了 DSX Local,以便支持数据科学团队充分利用 Watson Explorer 强大的自然语言处理功能,帮助企业通过结构化数据分析和非结构化数据分析制定出更好的决策。

对于企业用户和业务用户,Watson Explorer Deep Analytics Edition 将不断通过新功能增强自身作为平台的价值,支持开展认知搜索和非结构化数据分析。最新版本的 Watson Explorer Deep Analytics Edition Version 12.0.1 包含诸多技术增强功能,例如,全新的情绪分析视图、基于 Web 的全新 NLP 资源定制工具等等。

浏览 Watson Explorer for Data Science Experience 网站,了解更多信息

 

本文翻译自: Watson Explorer for Data Science Experience: Leverage unstructured data analytics with IBM’s premier data science platform (2018-08-17)

加入讨论