概述
SimpleQuestions 关系检测数据集是从 SimpleQuestions 数据集派生的一组关系提取注解。此数据集中的每个条目都遵循 SimpleQuestions 数据集中列出的问题顺序,并对应以下格式:gold_relations \t negative_relation_pool \t question
。名为 relation.2M.list
的单独文件中映射了关系 ID,其中 ID 的索引从 1 开始。数据集被分为训练集、验证集和测试集,以便匹配 SimpleQuestions 数据所使用的拆分方式。
关系提取任务用于生成文本中实体之间的语义关系。关系通常通过某种附属关系将两个实体连接起来。例如,实体的例子可以是人员、组织或地点类型,而这些实体之间的关系则可以是空间、社会或层次关系类型。再比如,实体“史蒂夫·乔布斯”和“苹果”之间可能存在着“创始人”关系。关系提取在机器阅读领域至关重要,它为计算机的更复杂任务提供了必要的输入,如回答问题、充当会话代理或总结文本等。
原始的 SimpleQuestions 数据集是由 Facebook 开发的,由以英语为母语的人类注解者编写的 108,442 个简单问题组成。每个问题都与一个答案相匹配,且采用了由主体、关系和客体构成的事实形式。要获得更多信息或访问原始 SimpleQuestions 数据集,您可以访问下面“相关链接”部分中链接的数据集的存储库。
数据集元数据
记录示例
40 61 40 117 which genre of album is #head_entity# ?
61 56 702 132 61 117 40 11 what format is #head_entity#
272 7 1 18 272 308 what film is by the writer #head_entity# ?
/music/album/genre
/music/album/release_type
/film/writer/film
引用
@inproceedings{yu2017improved,
title={Improved Neural Relation Detection for Knowledge Base Question Answering},
author={Yu, Mo and Yin, Wenpeng and Hasan, Kazi Saidul and dos Santos, Cicero and Xiang, Bing and Zhou, Bowen},
booktitle={Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
pages={571--581},
year={2017}
}
相关链接
- Facebook 研究院提供的简单问题,这是用于生成这组注解的底层数据集
本文翻译自:SimpleQuestions Relation Detection(2020-05-07)