开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

IBM Debater® 语句抽象性

概述

抽象度量化了表达式表示可以被人类感知直接感知的实体的程度。 例如,“女权主义”一词通常被认为是抽象的,但“螺丝刀”一词却具有具体含义。“概念抽象度”数据集包含 30 万个维基百科概念,并对其抽象度进行了自动评级。

数据集元数据

条目
格式 CSV
许可 CC-BY-SA 3.0
领域 自然语言处理
记录数 30 万字或句子
数据分割 字母,二元组和三元组中的每一个各 10 万
大小 3.6 MB
作者 Ella Rabinovich, Benjamin Sznajder, Artem Spector, Ilya Shnayderman, Ranit Aharonov, David Konopnicki, Noam Slonim
数据集来源 IBM Research – Project Debater
数据集版本更新 1.0.2 版本 – 2018-10-27
数据覆盖 来自维基百科的 30 万个概念,他们是由 1-3 个词组的短语、单词组成。
业务用例 文档理解 自动标记文档标题的抽象程度。 在维护文档目录时可以使用它,并且可以辅助推荐系统或检索系统。

记录示例

文件或目录 描述
predictions_unigrams.csv 字母组合的概念和抽象分数(单词概念)
predictions_bigrams.csv 二元组的概念和抽象分数(两个词的概念)
predictions_trigrams.csv 卦的概念和抽象分数(三个词的概念)
LICENSE.txt 使用条款
README.txt 文件和数据说明

数据词汇表和预览

点击 here 探索数据词汇表,样本记录和其他数据集元数据。

使用数据集

通过数据探索 Python notebook 补充此数据集,以帮助您入门:

相关链接

  • Project Debater Project Debater 是首款能够就复杂主题与人类展开辩论的 AI 系统。其目的是帮助人们建立具有说服力的论据并做出明智的决策。此数据集有助于训练 Project Debater 中的模型。

引用

@article{DBLP:journals/corr/abs-1809-01285,
    author    = {Ella Rabinovich and
                 Benjamin Sznajder and
                 Artem Spector and
                 Ilya Shnayderman and
                 Ranit Aharonov and
                 David Konopnicki and
                Noam Slonim},
    title     = {Learning Concept Abstractness Using Weak Supervision},
    journal   = {CoRR},
    volume    = {abs/1809.01285},
    year      = {2018},
    url       = {http://arxiv.org/abs/1809.01285},
    archivePrefix = {arXiv},
    eprint    = {1809.01285},
    timestamp = {Fri, 05 Oct 2018 11:34:52 +0200},
    biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1809-01285},
    bibsource = {dblp computer science bibliography, https://dblp.org}
  }

本文翻译自:IBM Debater® Concept Abstractness(2020-09-25)