开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

WebQSP 关系检测

概述

WebQSP 关系检测(WebQSP Relation Detection)数据集是从 WebQuestionsSP 数据集派生的一组关系提取注解。 此数据集中的每个条目都遵循 WebQuestionsSP 数据集中列出的问题顺序,并对应以下格式:gold_relations \t negative_relation_pool \t question。关系 ID 在名为 relations.txt 的单独文件中被映射,其中 ID 的索引从 1 开始。数据集被分为训练集和测试集,以便匹配 WebQuestionsSP 数据所使用的拆分方式。

关系提取任务用于生成文本中实体之间的语义关系。关系通常通过某种附属关系将两个实体连接起来。例如,实体的例子可以是人员、组织或地点类型,而这些实体之间的关系则可以是空间、社会或等级关系类型。再比如,实体“史蒂夫·乔布斯”和“苹果”之间可能存在着“创始人”关系。关系提取在机器阅读领域至关重要,它为计算机的更复杂任务提供了必要的输入,如回答问题、充当会话代理或总结文本等。

最初的 WebQuestionsSP 数据集是由 Microsoft 开发的,包含了 4,737 个问题的 SPARQL 查询的完整语义分析以及 1,073 个问题的部分注解。要获得更多信息或访问 WebQuestionsSP 数据集,您可以访问下面相关链接部分中链接的数据集主页。

数据集元数据

格式 许可 领域 记录数 大小 最初发布日期
TSV
TXT
CDLA – Permissive 自然语言处理 1,649 个问题 2.3MB 2017-05-26

记录示例

150        3330 3341 3533 150 3534 101 3535 2368 3339 102 159 30 158 160        $ARG1 where is the <e> located $ARG2

location.location.containedby

引用

@inproceedings{yu2017improved,
 title={Improved Neural Relation Detection for Knowledge Base Question Answering},
 author={Yu, Mo and Yin, Wenpeng and Hasan, Kazi Saidul and dos Santos, Cicero and Xiang, Bing and Zhou, Bowen},
 booktitle={Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
 pages={571--581},
 year={2017}
}

相关链接

本文翻译自:WebQSP Relation Detection(2020-05-07)