开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

IBM Debater® 面向维基百科的相关度

概述

IBM Debater® 面向维基百科的相关度(IBM Debater® Wikipedia Oriented Relatedness)是一种新型概念相关度数据集,由 19,276 对维基百科概念组成。维基百科是百科知识的一个主流来源,可提供各个领域高度可靠的文章。这种丰富性和流行程度促使 NLP 研究人员围绕维基百科概念之间的相关度制订了一些指标。WORD(面向维基百科的相关度数据集)是首个人类注解的维基百科概念数据集,构建此数据集有两层目的。一方面,可充当概念相关度方法的评估基准。另一方面,可用作监管数据,用于开发新的概念相关度预测模型。与同类的术语相关度数据集相比,该数据集的优势在于其内置的消歧解决方案及其丰富且有意义的多词术语。我们根据此基准开发了一款名为 WORT(面向维基百科的相关度工具)的新工具,用于衡量成对概念之间的相关度。

数据集元数据

条目
格式 CSV
许可 CC-BY-SA 3.0
领域 Natural Language Processing
记录数 19,276 条记录
数据分割 NA
大小 3.4 MB
数据来源 IBM Project Debater
数据集版本更新 1 版本 – 2017-06-01
数据覆盖 基于 38,552 条随机选择的维基百科文章的随机概念对
商业用例 自动化客户服务: 训练聊天机器人以标记用户查询的概念类型并将其与聊天机器人能够讨论的可用概念列表进行比较。

记录示例

文件或目录 描述
AnnotationGuidelines.docx 用于标记概念对的标记任务准则
WORD.csv 原始数据
LICENSE.txt 使用条款
README.txt 解释数据集信息

数据词汇表和预览

点击 here 探索数据词汇表,样本记录和其他数据集元数据。

使用数据集

通过数据探索 Python notebook 补充此数据集,以帮助您入门:

相关链接

  • Project Debater Project Debater 是首个可围绕复杂主题与人类展开辩论的 AI 系统。目标在于帮助人们摆出有说服力的论据,做出明智的决策。此数据集有助于在 Project Debater 中训练模型。

引用

@inproceedings{dor2018semantic,
title={Semantic Relatedness of Wikipedia Concepts--Benchmark Data and a Working Solution},
author={Ein-Dor, Liat and Halfon, Alon and Kantor, Yoav and Levy, Ran and Mass, Yosi and Rinott, Ruty and Shnarch, Eyal and Slonim, Noam},
booktitle={Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018)},
year={2018}
}

本文翻译自:IBM Debater® Wikipedia Oriented Relatedness(2020-09-25)