概述
IBM Debater® 惯用语情绪词汇表(Sentiment Lexicon of IDiomatic Expressions,缩写为 SLIDE)是通过众包形式创建的情绪分析资源。根据大型英语语料库的估计,该词汇表包含 5,000 个常见习语。这些习语选自维基词典,其中超过 40% 的习语被标注为带有相应的情绪。每个习语至少由十个注解者注解为肯定、否定、中立或不当。该词汇表包括情绪标签以及情绪注解的分布情况。分配标签时,会采用众包注解中投票数最多的标签。对于肯定(或否定)和中立之间的关系,标签为肯定(或否定)。对于极少数的肯定与否定之间的关系,我们使用中立标签。生成的词汇表有 946 个肯定习语,1108 个否定习语,2945 个中立习语和 1 个不当习语。
发布的数据文件包含 12 列:
- A 列:习语表达
- B 列:维基词典中习语的链接
- C 列:肯定注解计数
- D 列:否定注解计数
- E 列:中立注解计数
- F 列:认为表达粗俗或不当的注解的计数
- G 列:注解总数
- H 列:肯定百分比
- I 列:否定百分比
- J 列:中立百分比
- K 列:情绪标签
- L 列:模糊表达过滤器 -“X”表示移除(参阅文章第 4 节)
数据集元数据
格式 | 许可 | 领域 | 记录数 | 大小 |
---|---|---|---|---|
TSV |
CC-BY-SA 3.0 | 自然语言处理 | 5000 个带有情绪注解的习语 |
67KB |
记录示例
alive and kicking https://en.wiktionary.org/wiki/alive_and_kicking 10 0 0 0 10 1.000 0.000 0.000 positive
引用
@inproceedings{jochim-etal-2018-slide,
title = "{SLIDE}---a Sentiment Lexicon of Common Idioms",
author = "Jochim, Charles and Bonin, Francesca and Bar-Haim, Roy and Slonim, Noam",
booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC}-2018)",
month = may,
year = "2018",
address = "Miyazaki, Japan",
publisher = "European Languages Resources Association (ELRA)",
url = "https://www.aclweb.org/anthology/L18-1379",
}
相关链接
- Project Debater Project Debater 是首个可围绕复杂主题与人类展开辩论的 AI 系统。目标在于帮助人们摆出有说服力的论据,做出明智的决策。此数据集有助于在 Project Debater 中训练模型。
本文翻译自:IBM Debater® Sentiment Lexicon of IDiomatic Expressions (SLIDE)(2019-09-05)