新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

IBM Debater® Sentiment Composition Lexicons

概要

このリソースは、当事者間の対話から抽出したフレーズの感情を予測して、感情の組成に対処しまます。例えば、「削減された官僚主義」と「新しい傷」というフレーズでは、「削減された」と「新しい」という単語の後には、どちらも否定的な単語が続いています。ただし、「削減された」では否定極性を反転して肯定的なフレーズになる一方で、「新しい」では否定極性がフレーズ・レベルまで伝搬されて、結果的に否定的なフレーズになります。したがって、このデータセットでは「削減された」が「逆転」語彙に含まれ、「新しい」が「伝播」語彙に含まれています。

このデータセットには、次のものが含まれています。

  1. ReleaseNotes.docx – データについて説明するリリース・ノート・ファイル。
  2. SEMANTIC_CLASSES.xlsx – 逆転語彙、伝播語彙、支配語彙からなる組成辞書
  3. ADJECTIVES.xlsx – 2 つの段階的形容詞 (高い-低い、速い-遅い) のペアからなる組成語彙とその展開リストからなる組成辞書
  4. LEXICON_UG.txt – ユニグラフの感情辞書
  5. LEXICON_BG.txt – バイグラムの感情辞書

SENANTIC_CLASSES.xlsx このファイルには、意味クラス別に分けた単語のリストが含まれています。各意味クラス (逆転、伝播、支配) の Excel ファイルには、肯定的な成分 (POS) と否定的な成分 (NEG) のそれぞれに対応する 2 つのタブがあります。タブは全部で、DOMINATOR_NEG、DOMINATOR_POS、PROPAGETOR_POS、PROPAGETOR_NEG、REVERSER_POS、REVERSER_NEG の 6 つです。

ADJECTIVES.xlsx このファイルには、意味クラス別に分けた段階的形容詞のペアの単語のリストが含まれています。

  • (HIGH,LOW)_POS_NEG、(HIGH,LOW)_NEG_POS: ADJ 高い/低いの単語のリスト。
  • (FAST,SLOW)_POS_NEG、(FAST,SLOW)_NEG_POS: ADJ 速い/遅いの単語のリスト。
  • ADJECTIVE_EXPANSION: 高い、低い、速い、遅いの形容詞展開のリスト。

LEXICON_UG.txt 66,058 個のユニグラムとそれぞれに予測される感情スコアのリスト。 この文書では、HL 辞書 (Hu および Liu による、一般公開されている感情辞書 (2004 年)) に感情が含まれているユニグラムには HL 辞書の元の感情 (+1 または -1) を使用し、予測スコアは使用していないことに注意してください。このステップは、リリースされている辞書には反映されていません。

LEXICON_BG.txt 262,555 個のバイグラムを選択してリストアップした、以下の形式のリスト。

  • 列 1: バイグラム
  • 列 2: ユニグラムの OpenNLP POS タグ
  • 列 3: 予測される感情スコア

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ 公開日
XLSX
TXT
CC-BY-SA 3.0 感情分析 2,783 (単語)
66,058 (ユニグラム)
262,555 (バイグラム)
10MB 2018 年 6 月 7 日

抜粋

@article{sentiment_composition_lexicons,
author="Orith Toledo-Ronen
and Roy Bar-Haim
and Alon Halfon
and Amir Menczel
and Charles Jochim
and Noam Slonim
and Ranit Aharonov",
title="Learning Sentiment Composition from Sentiment Lexicons",
journal="COLING",
year="2018",
}

関連リンク

  • Project Debater は、複雑なトピックについて人間とディベートできる初の AI システムです。このプロジェクトの目標は、人々が説得力のある討論を行った上で、十分な情報に基づく意思決定を行えるよう支援することです。Project Debater でのモデルのトレーニングには、このデータセットが活用されました。