概述
IBM Debater® 维基百科类别立场(IBM Debater® Wikipedia Category Stance)数据集包含:
- 132 个观点
- 4603 个对观点进行立场(赞成/反对)注解的维基百科类别和列表
发布的数据文件包含 4 列:
- A 列:标签
- B 列:观点
- C 列:维基百科中类别或列表的页面标题
- D 列:类别/列表页的 URL
对于每个类别,标签为以下内容之一:
- “-”– 该类别不是人员组类别
- “P”– 支持立场(支持此观点)
- “C”– 反对立场(反对此观点)
- “?”– 无法依据类别名称确定立场,或类别不相关
- “X”– 无法解决的情况:3 名注解员给出的标签各不相同
数据集元数据
字段 | 值 |
---|---|
格式 | CSV |
许可 | CC BY 3.0 |
领域 | 自然语言处理 |
记录数 | 4603 条记录 |
数据分割 | NA |
大小 | 525 KB |
作者 | Orith Toledo-Ronen, Roy Bar-Haim |
数据来源 | IBM Research |
数据版本 | 版本 2 – 2019-08-01 版本 1 – 2016-08-30 |
数据覆盖 | 132 个概念,4603 个 Wikipedia 类别和针对这些概念的带注释的立场(Pro/Con) |
业务用例 | 政府 – 分析政治话题和对话的情绪。 |
数据集存档内容
文件和文件夹 | 描述 |
---|---|
WikipediaCategoriesResults.csv |
数据集 |
WikipediaCategoriesLabeling.docx |
标记数据的准则 |
LICENSE.txt |
使用条款 |
ReleaseNotes.txt |
描述数据的发行说明文件 |
数据词汇表和预览
单击此处浏览数据词汇表、样本记录和其他数据集元数据。
使用数据集
入门笔记本对这个数据集进行了补充,可以帮助您入门:
相关链接
- Project Debater Project Debater 是首个可围绕复杂主题与人类展开辩论的 AI 系统。目标在于帮助人们摆出有说服力的论据,做出明智的决策。此数据集有助于在 Project Debater 中训练模型。
引用
@inproceedings{toledo-ronen-etal-2016-expert,
title = "Expert Stance Graphs for Computational Argumentation",
author = "Toledo-Ronen, Orith and
Bar-Haim, Roy and
Slonim, Noam",
booktitle = "Proceedings of the Third Workshop on Argument Mining ({A}rg{M}ining2016)",
month = aug,
year = "2016",
address = "Berlin, Germany",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/W16-2814",
doi = "10.18653/v1/W16-2814",
pages = "119--123",
}
本文翻译自:IBM Debater® Wikipedia Category Stance(2020-09-28)