概述
抽象度量化了表达式表示可以被人类感知直接感知的实体的程度。 例如,“女权主义”一词通常被认为是抽象的,但“螺丝刀”一词却具有具体含义。“概念抽象度”数据集包含 30 万个维基百科概念,并对其抽象度进行了自动评级。
数据集元数据
条目 | 值 |
---|---|
格式 | CSV |
许可 | CC-BY-SA 3.0 |
领域 | 自然语言处理 |
记录数 | 30 万字或句子 |
数据分割 | 字母,二元组和三元组中的每一个各 10 万 |
大小 | 3.6 MB |
作者 | Ella Rabinovich, Benjamin Sznajder, Artem Spector, Ilya Shnayderman, Ranit Aharonov, David Konopnicki, Noam Slonim |
数据集来源 | IBM Research – Project Debater |
数据集版本更新 | 1.0.2 版本 – 2018-10-27 |
数据覆盖 | 来自维基百科的 30 万个概念,他们是由 1-3 个词组的短语、单词组成。 |
业务用例 | 文档理解 自动标记文档标题的抽象程度。 在维护文档目录时可以使用它,并且可以辅助推荐系统或检索系统。 |
记录示例
文件或目录 | 描述 |
---|---|
predictions_unigrams.csv |
字母组合的概念和抽象分数(单词概念) |
predictions_bigrams.csv |
二元组的概念和抽象分数(两个词的概念) |
predictions_trigrams.csv |
卦的概念和抽象分数(三个词的概念) |
LICENSE.txt |
使用条款 |
README.txt |
文件和数据说明 |
数据词汇表和预览
点击 here 探索数据词汇表,样本记录和其他数据集元数据。
使用数据集
通过数据探索 Python notebook 补充此数据集,以帮助您入门:
相关链接
- Project Debater Project Debater 是首款能够就复杂主题与人类展开辩论的 AI 系统。其目的是帮助人们建立具有说服力的论据并做出明智的决策。此数据集有助于训练 Project Debater 中的模型。
引用
@article{DBLP:journals/corr/abs-1809-01285,
author = {Ella Rabinovich and
Benjamin Sznajder and
Artem Spector and
Ilya Shnayderman and
Ranit Aharonov and
David Konopnicki and
Noam Slonim},
title = {Learning Concept Abstractness Using Weak Supervision},
journal = {CoRR},
volume = {abs/1809.01285},
year = {2018},
url = {http://arxiv.org/abs/1809.01285},
archivePrefix = {arXiv},
eprint = {1809.01285},
timestamp = {Fri, 05 Oct 2018 11:34:52 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1809-01285},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
本文翻译自:IBM Debater® Concept Abstractness(2020-09-25)