新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

IBM Debater® Recorded Debating #2

概要

競技ディベートに参加する Project Debater は、人間の討議相手が唱える論拠に対して効果的に反論する必要があります。このシステムで討議のスピーチをリアルタイムで聴取し、主な論拠を理解して、説得力のある反論を行う必要があります。

討議分野の性質と、競技ディベートに伴う特性から、こうした音声コンテンツの内容を理解するのは非常に困難です。人が表現する考えは、複数の連続していないセンテンスにまたがっていることが多く、多くの論拠は明示的に述べられるというよりも、それとなく示唆されます。さらに、数分間にわたるスピーチの最も重要な部分を特定し、反論しなければならないという要件から生じる難しさもあります。これとは対照的に、現在の会話型エージェントは短い入力から単一の実用的な命令を理解することを目的としています。このデータセットの目標は、この困難条件の中で、聴解アルゴリズムを開発する基盤となることです。

リリース 2 には、意見の分かれる 50 のトピックについて記録した 200 件のスピーチが以下の形式で含まれています。

  • 録音された音声 (wav ファイル)
  • 自動音声認識 (ASR) システムを使用して音声から生成されたテキスト (テキスト・ファイル)
  • 専門的なアノテーターにより、手作業で ASR テキストを修正して作成されたトランスクリプト (テキスト・ファイル)

ASR とトランスクリプトのテキストは、音声に含まれる各発話の時間を示した未加工のバージョンの他、話し言葉だけを含む「NLP フレンドリー」なクリーン・バージョンも用意されています。

録音されたスピーチをベースとして、各スピーチにはアノテーション層が追加され、場合によっては言及された論拠がオンライン・リソース (iDebate: http://idebate.org/) から抽出されています。これらの論拠には、言及ありまたは言及なしとしてアノテーションが付けられています。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ
WAV
CSV
TXT
CC-BY-SA 3.0 自然言語処理 200 件のスピーチ
意見の分かれる 50 のトピック
756 個のアノテーション付き論拠
3.1GB

抜粋

@InProceedings{mirkin-etal-2018-listening,
author = {Shachar Mirkin and Guy Moshkowich and Matan Orbach and Lili Kotlerman and Yoav Kantor and Tamar Lavee and Michal Jacovi and Yonatan Bilu and Ranit Aharonov and Noam Slonim},
title = {Listening Comprehension over Argumentative Content},
booktitle = {Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP)},
year = {2018}
}

関連リンク

  • Project Debater は、複雑なトピックについて人間とディベートできる初の AI システムです。このプロジェクトの目標は、人々が説得力のある討論を行った上で、十分な情報に基づく意思決定を行えるよう支援することです。Project Debater でのモデルのトレーニングには、このデータセットが活用されました。