开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

IBM Debater® 维基百科类别立场

概述

IBM Debater® 维基百科类别立场(IBM Debater® Wikipedia Category Stance)数据集包含:

  1. 132 个观点
  2. 4603 个对观点进行立场(赞成/反对)注解的维基百科类别和列表

发布的数据文件包含 4 列:

  • A 列:标签
  • B 列:观点
  • C 列:维基百科中类别或列表的页面标题
  • D 列:类别/列表页的 URL

对于每个类别,标签为以下内容之一:

  1. “-”– 该类别不是人员组类别
  2. “P”– 支持立场(支持此观点)
  3. “C”– 反对立场(反对此观点)
  4. “?”– 无法依据类别名称确定立场,或类别不相关
  5. “X”– 无法解决的情况:3 名注解员给出的标签各不相同

数据集元数据

字段
格式 CSV
许可 CC BY 3.0
领域 自然语言处理
记录数 4603 条记录
数据分割 NA
大小 525 KB
作者 Orith Toledo-Ronen, Roy Bar-Haim
数据来源 IBM Research
数据版本 版本 2 – 2019-08-01
版本 1 – 2016-08-30
数据覆盖 132 个概念,4603 个 Wikipedia 类别和针对这些概念的带注释的立场(Pro/Con)
业务用例 政府 – 分析政治话题和对话的情绪。

数据集存档内容

文件和文件夹 描述
WikipediaCategoriesResults.csv 数据集
WikipediaCategoriesLabeling.docx 标记数据的准则
LICENSE.txt 使用条款
ReleaseNotes.txt 描述数据的发行说明文件

数据词汇表和预览

单击此处浏览数据词汇表、样本记录和其他数据集元数据。

使用数据集

入门笔记本对这个数据集进行了补充,可以帮助您入门:

相关链接

  • Project Debater Project Debater 是首个可围绕复杂主题与人类展开辩论的 AI 系统。目标在于帮助人们摆出有说服力的论据,做出明智的决策。此数据集有助于在 Project Debater 中训练模型。

引用

@inproceedings{toledo-ronen-etal-2016-expert,
title = "Expert Stance Graphs for Computational Argumentation",
author = "Toledo-Ronen, Orith  and
Bar-Haim, Roy and
Slonim, Noam",
booktitle = "Proceedings of the Third Workshop on Argument Mining ({A}rg{M}ining2016)",
month = aug,
year = "2016",
address = "Berlin, Germany",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/W16-2814",
doi = "10.18653/v1/W16-2814",
pages = "119--123",
}

本文翻译自:IBM Debater® Wikipedia Category Stance(2020-09-28)