概述
用于提及检测的大型高质量基准数据集。提及检测的目的是将文本中提到的实体、概念映射到知识库中的正确概念。 该基准包含对命名实体以及其他类型实体的注释,并在不同类型的文本上进行注释,从维基百科提取的纯文本到嘈杂的语音数据。基准是通过严格控制的众包流程建立的,以确保其质量。维基百科句子中有 3000 个句子,总共有 6375 个提及,口语句子中有 6239 个提及。
数据集元数据
条目 | 值 |
---|---|
格式 | ANN |
许可 | CC-BY-SA 3.0 |
领域 | 自然语言处理 |
记录数 | 3,000 个句子,维基百科句子中提到 6375 个,口语句子中提到 6239 个。 |
数据分割 | 训练 – 1,500 句子和提及 , 测试 – 1,500 句子和提及 |
大小 | 1.8MB |
作者 | Yosi Mass, Lili Kolterman |
数据源 | IBM Research |
数据版本升级 | 版本 1 – 2018 年 01 月 25 日 |
数据范围 | 该数据集包含从维基百科文章(1000),经过清理的手动转录(1000)和讨论不同主题的自动语音识别引擎(1000)的输出中提取的 3000 个句子。部分话题包含在 Debatabase. |
商业用例 | 新闻与娱乐 此数据集可用于增强内容推荐,例如新闻报道,节目等。 |
记录示例
文件或目录 | 描述 |
---|---|
README.txt |
提及检测数据集的自述文件 |
topics.csv |
包含与句子关联的主题文件 |
data |
数据目录包含 3 个数据集的 6 个文件夹。 |
attribution |
包含维基百科句子的归因文件,以及指向其来源的文章的指针 |
数据词汇表和预览
点击 here 探索数据词汇表,样本记录和其他数据集元数据。
使用数据集
此数据集辅以数据浏览笔记本,可帮助您入门:尝试使用完整的 Notebook
引用
@misc{mass2018did,
title={What did you Mention? A Large Scale Mention Detection Benchmark for Spoken and Written Text},
author={Yosi Mass and Lili Kotlerman and Shachar Mirkin and Elad Venezian and Gera Witzling and Noam Slonim},
year={2018},
eprint={1801.07507},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
相关链接
- IBM Project Debater Project Debater 是首款能够就复杂主题与人类展开辩论的 AI 系统。其目的是帮助人们建立具有说服力的论据并做出明智的决策。此数据集有助于训练 Project Debater 中的模型。
本文翻译自:IBM Debater® Mention Detection Benchmark(2019-07-29)