开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

IBM Debater® 提到检测基准

概述

用于提及检测的大型高质量基准数据集。提及检测的目的是将文本中提到的实体、概念映射到知识库中的正确概念。 该基准包含对命名实体以及其他类型实体的注释,并在不同类型的文本上进行注释,从维基百科提取的纯文本到嘈杂的语音数据。基准是通过严格控制的众包流程建立的,以确保其质量。维基百科句子中有 3000 个句子,总共有 6375 个提及,口语句子中有 6239 个提及。

数据集元数据

条目
格式 ANN
许可 CC-BY-SA 3.0
领域 自然语言处理
记录数 3,000 个句子,维基百科句子中提到 6375 个,口语句子中提到 6239 个。
数据分割 训练 – 1,500 句子和提及 , 测试 – 1,500 句子和提及
大小 1.8MB
作者 Yosi Mass, Lili Kolterman
数据源 IBM Research
数据版本升级 版本 1 – 2018 年 01 月 25 日
数据范围 该数据集包含从维基百科文章(1000),经过清理的手动转录(1000)和讨论不同主题的自动语音识别引擎(1000)的输出中提取的 3000 个句子。部分话题包含在 Debatabase.
商业用例 新闻与娱乐
此数据集可用于增强内容推荐,例如新闻报道,节目等。

记录示例

文件或目录 描述
README.txt 提及检测数据集的自述文件
topics.csv 包含与句子关联的主题文件
data 数据目录包含 3 个数据集的 6 个文件夹。
attribution 包含维基百科句子的归因文件,以及指向其来源的文章的指针

数据词汇表和预览

点击 here 探索数据词汇表,样本记录和其他数据集元数据。

使用数据集

此数据集辅以数据浏览笔记本,可帮助您入门:尝试使用完整的 Notebook

引用

@misc{mass2018did,
      title={What did you Mention? A Large Scale   Mention Detection Benchmark for Spoken and Written Text},
      author={Yosi Mass and Lili Kotlerman and Shachar Mirkin and Elad Venezian and Gera Witzling and Noam Slonim},
      year={2018},
      eprint={1801.07507},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

相关链接

  • IBM Project Debater Project Debater 是首款能够就复杂主题与人类展开辩论的 AI 系统。其目的是帮助人们建立具有说服力的论据并做出明智的决策。此数据集有助于训练 Project Debater 中的模型。

本文翻译自:IBM Debater® Mention Detection Benchmark(2019-07-29)