开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

IBM Debater® 惯用语情绪词汇表

概述

IBM Debater® 惯用语情绪词汇表(Sentiment Lexicon of IDiomatic Expressions,缩写为 SLIDE)是通过众包形式创建的情绪分析资源。根据大型英语语料库的估计,该词汇表包含 5,000 个常见习语。这些习语选自维基词典,其中超过 40% 的习语被标注为带有相应的情绪。每个习语至少由十个注解者注解为肯定、否定、中立或不当。该词汇表包括情绪标签以及情绪注解的分布情况。分配标签时,会采用众包注解中投票数最多的标签。对于肯定(或否定)和中立之间的关系,标签为肯定(或否定)。对于极少数的肯定与否定之间的关系,我们使用中立标签。生成的词汇表有 946 个肯定习语,1108 个否定习语,2945 个中立习语和 1 个不当习语。

发布的数据文件包含 12 列:

  • A 列:习语表达
  • B 列:维基词典中习语的链接
  • C 列:肯定注解计数
  • D 列:否定注解计数
  • E 列:中立注解计数
  • F 列:认为表达粗俗或不当的注解的计数
  • G 列:注解总数
  • H 列:肯定百分比
  • I 列:否定百分比
  • J 列:中立百分比
  • K 列:情绪标签
  • L 列:模糊表达过滤器 -“X”表示移除(参阅文章第 4 节)

数据集元数据

格式 许可 领域 记录数 大小
TSV
CC-BY-SA 3.0 自然语言处理 5000 个带有情绪注解的习语
67KB

记录示例

alive and kicking    https://en.wiktionary.org/wiki/alive_and_kicking    10    0    0    0    10    1.000    0.000    0.000    positive

引用

@inproceedings{jochim-etal-2018-slide,
title = "{SLIDE}---a Sentiment Lexicon of Common Idioms",
author = "Jochim, Charles and Bonin, Francesca and Bar-Haim, Roy and Slonim, Noam",
booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC}-2018)",
month = may,
year = "2018",
address = "Miyazaki, Japan",
publisher = "European Languages Resources Association (ELRA)",
url = "https://www.aclweb.org/anthology/L18-1379",
}

相关链接

  • Project Debater Project Debater 是首个可围绕复杂主题与人类展开辩论的 AI 系统。目标在于帮助人们摆出有说服力的论据,做出明智的决策。此数据集有助于在 Project Debater 中训练模型。

本文翻译自:IBM Debater® Sentiment Lexicon of IDiomatic Expressions (SLIDE)(2019-09-05)