开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

SimpleQuestions 关系检测

概述

SimpleQuestions 关系检测数据集是从 SimpleQuestions 数据集派生的一组关系提取注解。此数据集中的每个条目都遵循 SimpleQuestions 数据集中列出的问题顺序,并对应以下格式:gold_relations \t negative_relation_pool \t question。名为 relation.2M.list 的单独文件中映射了关系 ID,其中 ID 的索引从 1 开始。数据集被分为训练集、验证集和测试集,以便匹配 SimpleQuestions 数据所使用的拆分方式。

关系提取任务用于生成文本中实体之间的语义关系。关系通常通过某种附属关系将两个实体连接起来。例如,实体的例子可以是人员、组织或地点类型,而这些实体之间的关系则可以是空间、社会或层次关系类型。再比如,实体“史蒂夫·乔布斯”和“苹果”之间可能存在着“创始人”关系。关系提取在机器阅读领域至关重要,它为计算机的更复杂任务提供了必要的输入,如回答问题、充当会话代理或总结文本等。

原始的 SimpleQuestions 数据集是由 Facebook 开发的,由以英语为母语的人类注解者编写的 108,442 个简单问题组成。每个问题都与一个答案相匹配,且采用了由主体、关系和客体构成的事实形式。要获得更多信息或访问原始 SimpleQuestions 数据集,您可以访问下面“相关链接”部分中链接的数据集的存储库。

数据集元数据

格式 许可 领域 记录数 大小 最初发布日期
TSV
TXT
CDLA – 宽松 自然语言处理 108,442 个问题 7.7MB 2017-05-26

记录示例

40        61 40 117        which genre of album is #head_entity# ?
61        56 702 132 61 117 40 11        what format is #head_entity#
272        7 1 18 272 308        what film is by the writer #head_entity# ?

/music/album/genre
/music/album/release_type
/film/writer/film

引用

@inproceedings{yu2017improved,
 title={Improved Neural Relation Detection for Knowledge Base Question Answering},
 author={Yu, Mo and Yin, Wenpeng and Hasan, Kazi Saidul and dos Santos, Cicero and Xiang, Bing and Zhou, Bowen},
 booktitle={Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
 pages={571--581},
 year={2017}
}

相关链接

本文翻译自:SimpleQuestions Relation Detection(2020-05-07)