开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

IBM Developer 博客

通过 IBM Developer 关注最新动态并获取信息

IBM Data Asset eXchange 推出了新的数据集和探索性 Watson Studio Notebook。


IBM® Data Asset eXchange (DAX) 是一个供开发者和数据科学家在开放数据许可下查找免费开放数据集的在线中心。DAX 特别关注的是遵守社区数据许可协议 (CDLA) 的数据集。自 2019 年推出 DAX 以来,开源数据与人工智能技术中心 (CODAIT) 团队一直在稳步地为 DAX 增加新的数据集,以及帮助探索这些数据集的资源。

Data Asset eXchange 的最新更新中,增加了大量新的与数据相关的资产和用户体验增强功能。对于现有数据集,我们增加了 7 个新的 Watson Studio Notebook 以及 3 个 Watson Studio 项目(可将多个 Notebook 打包到一起的一类新数据资产)。除了这些 Notebook,我们还向 DAX 增加了 8 个新数据集,涉及石油开采、遥感和语音识别等领域。最后,我们正在努力改进 DAX 显示数据集预览的方式。我们已经开始添加数据词汇表和详细的元数据部分,以便为用户提供数据集的特征和用例背后的更多信息。我们还开始了适应文本、图像和音频数据记录预览的工作,允许用户对数据集进行采样,而无需下载整个数据集存档。

新的 Watson Studio 项目

我们现在正在逐步将 Watson Studio 项目添加到数据集,其中包括用于说明用户如何对数据进行提取、清理、分析和建模的成组的 Notebook。要将项目导入 Watson Studio 中,访问下文 IBM® Data Asset eXchange (DAX) 中讨论的三个数据集之一,然后单击 Run dataset notebooks,或单击 Use the Dataset 部分中的链接以预览代码。要了解有关 Watson Studio 项目的更多信息,可查看本教程。第四个项目已经在开发中,我们将在必要情况下增加更多项目。

Data Asset eXchange Weather 项目

我们发布的第一个 Watson Studio 项目是 DAX Weather 项目,它使用了 NOAA Weather – JFK Airport 数据集。这个项目有三个 Notebook,分别执行不同的功能。第一个是数据清理 Notebook,负责向用户介绍如何推定缺少的数据值并编码某些天气特性,以提高机器学习模型的性能。该项目还包括一个数据分析 Notebook,用于可视化数据集的特性、依赖关系以及随时间变化的趋势。最后,该项目包括一个时间序列预测 Notebook,用于构建一个 ARIMA 模型,并使用 RMSE 指标来评估其性能。

Data Asset eXchange Fashion-MNIST 项目

Fashion-MNIST 项目通过探索服装图像数据集的潜在用途,构建以项目名称命名的 DAX 数据集。该项目从一个数据探索 Notebook 开始,该 Notebook 可视化各种衣物类别,并缩减了尺寸。第二个 Notebook 使用 scikit-learn 库对传统机器学习方法的性能进行比较,从而对服装标签进行分类。第三个 Notebook 也设计了一个分类器,但这次是使用 Keras 建立了一个深度学习卷积神经网络。

Data Asset eXchange Groningen Meaning Bank 项目

我们的第三个 Watson Studio 项目是 Groningen Meaning Bank 项目,该项目利用 DAX GMB 数据集探索文本中的命名实体。该项目的第一个 Notebook 让用户熟悉数据集中发现的不同类型的实体和词性标签,并可视化语料库的属性,例如最常见的标记。第二个 Notebook 向用户介绍了如何构建一个简单的命名实体识别模型,并配备了特征工程和模型结果分析部分。

新的探索性数据分析 Notebook

除了 Watson Studio 项目之外,我们还发布了一批新的探索性 Notebook,可搭配我们的 DAX 数据集使用。可以通过单击每个数据集的 DAX 登录页面上的 Try the notebook 来访问这些 Notebook。

合同命题库和财报命题库

合同命题库财报命题库 数据集包含法律与金融领域句子的命题库风格注释,现在包含用于加载和可视化这些注释的 Notebook。其中包含的图形用于可视化词性标签之类的特征分布,以及存储注释的 CoNLL 节点图格式等等。

IBM Project Debater Wikipedia Oriented Relatedness 和 Category Stance

最近又发布了用于支持 IBM Project Debater® 数据集 IBM Debater® 面向维基百科的相关度IBM Debater® 维基百科类别立场 的两个 Notebook,可探索从 Wikipedia 中提取的文本数据。这两个 Notebook 向您介绍了如何将数据加载到 Pandas DataFrame 中。Wikipedia Oriented Relatedness Notebook 可视化了概念相关程度数据的样本(对两篇 Wikipedia 文章之间的相关程度进行评分),而 Wikipedia Category Stance Notebook 则可视化了类别立场数据的样本(一篇 Wikipedia 文章对某个主题的赞成或反对立场)。

IBM Debater® 观点语句搜索、IBM Debater® 提到检测基准 和 IBM Debater® 情绪成分词汇表

增加的最后三个 Notebook 是 IBM Debater® 观点语句搜索IBM Debater® 提到检测基准IBM Debater® 情绪成分词汇表,它们也都包含最初来自 IBM Project Debater 的数据集。Claim Sentences Search Notebook 使用主题建模来可视化该数据集的辩论主题集合。Mention Detection Benchmark Notebook 将包含的文本数据标记化,并探索数据中存在的各种实体类型。Sentiment Composition Lexicons Notebook 对数据集中包含的各种二元语法词对的观点进行计数和可视化。

新数据集

TensorFlow 语音命令

新增加的 TensorFlow 语音命令 数据集包含 30 个英语口语常用词的超过 65,000 个短音频片段。该数据集非常适合训练音频分类器来检测“Yes”或“No”之类的口头命令。该数据集还包含带有背景噪声的音频文件,可用于与语音片段合并以使训练数据多样化。

WikiText-103

WikiText-103 数据集包含从 Wikipedia 上认证为“Good”和“Featured”的文章集合中提取的超过 1 亿个文本标记。此数据集在 CC BY-SA 3.0 许可下可用,并且非常适合长期依赖关系语言建模。

油藏模拟

油藏模拟 数据集包含由 IBM 研究人员生成的 60,000 个基于物理特性的模拟油藏。该数据集的 features 和 production-rate 标签是基于序列的,因此该数据集非常适合用于测试和验证序列算法。此数据集随附一个详细的 Notebook,其中提供了为生成顺序数据而进行的模拟运行的可视化解释。该数据集包含了基于物理模拟器的输入文件,以及数据的原始预处理版本,因此既适合新手数据科学家,也适合高级研究人员。

维基百科的实体图

维基百科的实体图 数据集由 IBM 研究院开发,包含来自 Wikipedia 实体的知识图,其中每个实体都有一个上下文文档作为补充,这一文档表示该实体出现在 Wikipedia 上的所有上下文。该数据集可用于有关执行图形结构和文本数据联合建模的问题和技巧。

莫诺湖地表水分布范围 Landsat8 数据

莫诺湖地表水分布范围 Landsat8 数据集包含由 IBM 研究院的研究人员进行后处理的 Landsat8 卫星图像数据,用于测量莫诺湖在 2013-04-18 至 2019-12-31 期间的地表水分布范围信息。地表水分布范围对于土地利用、水资源管理和生态系统健康的研究非常重要。这些数据可用于预测湖水分布范围和状况的时间序列,以监测湖泊随时间变化的情况。

塔拉纳基盆地测井曲线整理

塔拉纳基盆地测井曲线整理 数据集包含位于新西兰西海岸的 407 口油井的数据集。底层数据取自 New Zealand Petroleum & Minerals Online Exploration Database,并由 IBM 研究院进行了处理和清理,最后生成一个包含测井曲线、井坐标和井地质特征等信息的简单的 CSV 文件。

SimpleQuestions 和 WebQSP 关系检测

SimpleQuestions 关系检测WebQSP 关系检测 数据集是 IBM 研究院从底层问答数据集生成的实体关系注释集。关系检测任务负责生成文本中实体之间的语义关系。SimpleQuestions Relation Detection 数据集是使用 Facebook 研究院开发的 SimpleQA 数据集导出的,而 WebQSP Relation Detection 数据集是从 Microsoft 研究院创建的 WebQSP 数据集导出的。

如果您对 Data Asset eXchange 有任何意见或反馈,请使用 GitHubSlack 与我们联系。

本文翻译自:IBM Data Asset eXchange launches new data sets and exploratory Watson Studio notebooks(2020-05-26)