随着越来越多的公司采用人工智能(AI)技术,开发者掌握机器学习(ML)模型已势在必行。为此,开源数据和人工智能技术中心 CODAIT 于 2018 年推出了 IBM Model Asset eXchange(MAX),旨在帮助数据科学家和开发者轻松发现免费、开源的现成机器学习模型和深度学习模型。

2019 年 7 月 16 日,在 OSCON 2019 大会上,我们宣布推出在线交流中心 IBM Data Asset eXchange(DAX),在这里开发者和数据科学家可以找到精心筛选的、免费开放的、且符合开放数据许可要求的数据集。采用 ML 模型的开发者需要能够放心地使用符合明确定义的开放数据许可要求的开放数据。

在 DAX 上发布的数据集将尽可能使用 Linux 基金会的社区数据许可协议(CDLA)开放数据许可框架来实现数据共享和协作。此外,通过 DAX,您还可以访问 IBM 和 IBM Research 的各种数据集。IBM 计划定期在 Data Asset eXchange 上发布新的数据集。根据情况,DAX 上的数据集将与 IBM Cloud 和 AI 服务相集成。

开放数据集的可信来源

DAX 为开发者提供了一个可信来源,让他们能够获取精心筛选的用于 AI 的开放数据集。这些数据集可以在企业 AI 应用程序中使用,并配套了诸如教程之类的相关内容,让入门变得更简单。

DAX 为负责数据集使用和审查的工作人员提供了精心筛选的标准化数据集格式和元数据,相比之下,大多数其他开放数据集资源往往很少包含质量检查和许可条款检查。因此,DAX 数据集通常更容易在公司内部被采用。

在用的数据集的示例

即将发布的此类数据集的示例包括 Finance Proposition Bank 数据集和 Contracts Proposition Bank 数据集。这两个数据集是 IBM Research 当前研究项目的一部分。该研究项目旨在改进多种 IBM 产品(包括 Watson Natural Language Understanding 和 Watson Compare & Comply)背后的自然语言理解技术。

我们的研究人员通过 Watson 开发者的输入来创建了这些数据集,将目标文本的特征与系统在生产环境中分析的真实文档的特征相匹配。他们利用这些数据集来训练特定于某一领域的解析器版本,从法律协议和财务报告等管理业务文档中提取语义含义。

IBM Research 公开开展此类工作已有悠久的历史,而我们 CODAIT 团队的成员很荣幸通过在 Data Asset eXchange 上发布这些前沿的研究数据来帮助 IBM Research 实现开放性的使命。

为何选择 DAX?

虽然网上有许多资源都可用于查找开放数据集(包括 GitHub 上的各种链接以及诸如 Kaggle Datasets 之类的网站),但是 DAX 在提供高品质的精心筛选的数据集方面是独一无二的。DAX 可帮助创建端到端的深度学习工作流程(从使用数据训练模型到以标准方式部署模型),让开发者能够放心地使用符合明确定义的开放数据许可要求的开放数据。

开发 AI 解决方案所需的数据

IBM 还设计了 Data Asset eXchange 存储库来补充 Model Asset eXchange。在这两个平台上,用于组织资产的用户界面是一致的,并且用户可以使用 Data Asset eXchange 中的数据在 MAX 上轻松训练模型。

CODAIT 团队的目标是让用户能够轻松直接地将 DAX 和 MAX 资产与 IBM AI 产品及其他混合多云 AI 工具(专有和开源)结合使用。我们希望为数据科学家和开发者提供精心筛选的数据起点,以便于他们开始开发自己的 AI 应用程序和解决方案。

参考资源

本文翻译自:IBM announces Data Asset eXchange (DAX) to help developers use free and open data and AI(2019-07-16)

加入讨论