新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

IBM Debater® Sentiment Lexicon of IDiomatic Expressions (SLIDE)

概要

SLIDE (Sentiment Lexicon of IDiomatic Expressions) は、クラウドソーシングによって作成された、感情分析用のリソースです。この辞書には、大規模な英語のコーパスを基に、頻繁に出現すると推定された 5,000 個のイディオムが収録されています。これらのイディオムは Wiktionary から選択されたもので、その 40% には感情が伴うとしてラベルが付けられています。10 人以上のアノテーターにより、各イディオムに肯定的、否定的、中立的、不適切としてアノテーションが付けられました。この辞書には、感情ラベルと併せて感情アノテーションの分布も含まれています。ラベルを割り当てるために使用した方法は、クラウドソーシングによるアノテーションから最も投票数の多かったラベルを選択するというものです。肯定的 (または否定的) と中立的の得票数が同じ場合は、肯定的 (または否定的) のラベルが選択されています。まれに肯定的と否定的の得票数が同じである場合がありますが、その場合は中立的のラベルを使用しています。最終的な辞書は、946 個の肯定的イディオム、1,108 個の否定的イディオム、2,945 個の中立的イディオム、1 個の不適切なイディオムからなっています。

リリースされているデータ・ファイルには 12 の列があります。

  • 列 A: イディオムの表現
  • 列 B: Wiktionary 内のイディオムへのリンク
  • 列 C: 肯定的アノテーション数
  • 列 D: 否定的アノテーション数
  • 列 E: 中立的アノテーション数
  • 列 F: 表現が曖昧または不適切だと思われる場合のアノテーション数
  • 列 G: アノテーションの合計数
  • 列 H: 肯定的アノテーションが占めるパーセンテージ
  • 列 I: 否定的アノテーションが占めるパーセンテージ
  • 列 J: 中立的アノテーションが占めるパーセンテージ
  • 列 K: 感情のラベル
  • 列 L: 曖昧な表現のフィルター — ‘X’ は削除されたことを意味します (文書のセクション 4 を参照)

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ
TSV
CC-BY-SA 3.0 自然言語処理 5,000 (感情のアノテーションが付けられたイディオム)
67KB

サンプル・レコード

alive and kicking https://en.wiktionary.org/wiki/alive_and_kicking 10 0 0 0 10 1.000 0.000 0.000 positive

抜粋

@inproceedings{jochim-etal-2018-slide,
title = "{SLIDE}---a Sentiment Lexicon of Common Idioms",
author = "Jochim, Charlesand Bonin, Francescaand Bar-Haim, Royand Slonim, Noam",
booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC}-2018)",
month = may,
year = "2018",
address = "Miyazaki, Japan",
publisher = "European Languages Resources Association (ELRA)",
url = "https://www.aclweb.org/anthology/L18-1379",
}

関連リンク

  • Project Debater は、複雑なトピックについて人間とディベートできる初の AI システムです。このプロジェクトの目標は、人々が説得力のある討論を行った上で、十分な情報に基づく意思決定を行えるよう支援することです。Project Debater でのモデルのトレーニングには、このデータセットが活用されました。