新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

IBM Debater® Recorded Debating #3

概要

競技ディベートに参加する Project Debater は、人間の討議相手が唱える論拠に対して効果的に反論する必要があります。このシステムで討議のスピーチをリアルタイムで聴取し、主な論拠を理解して、説得力のある反論を行う必要があります。

討議分野の性質と、競技ディベートに伴う特性から、こうした音声コンテンツの内容を理解するのは非常に困難です。人が表現する考えは、複数の連続していないセンテンスにまたがっていることが多く、多くの論拠は明示的に述べられるというよりも、それとなく示唆されます。さらに、数分間にわたるスピーチの最も重要な部分を特定し、反論しなければならないという要件から生じる難しさもあります。これとは対照的に、現在の会話型エージェントは短い入力から単一の実用的な命令を理解することを目的としています。このディベートの録音を集めたデータセットの目標は、この困難な条件の中で、聴解アルゴリズムを開発する基盤となることです。

リリース 3 には、意見の分かれる 200 のトピックについて記録した 400 件のスピーチが以下の形式で含まれています。

  • 録音された音声 (wav ファイル)
  • 自動音声認識 (ASR) システムを使用して音声から生成されたテキスト (テキスト・ファイル)
  • 専門的なアノテーターにより、手作業で ASR テキストを修正して作成されたトランスクリプト (テキスト・ファイル)

ASR とトランスクリプトのテキストは、音声に含まれる各発話の時間を示した未加工のバージョンの他、話し言葉だけを含む「NLP フレンドリー」なクリーン・バージョンも用意されています。

録音されたスピーチをベースとして追加された各スピーチのアノテーション層には、大規模なテキスト・コーパスから自動的に取り出された主張のリストが含まれています。これらの主張には、明示的または暗黙的な言及あり、または言及なしとしてアノテーションが付けられています。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ
WAV
CSV
TXT
CC-BY-SA 3.0 自然言語処理 400 件のスピーチ
意見の分かれる 20 のトピック
4,876 個のアノテーション付き主張
5.6GB

抜粋

@article{DBLP:journals/corr/abs-1907-11889,
author = {Tamar Lavee and Matan Orbach and Lili Kotlerman and Yoav Kantor and Shai Gretz and Lena Dankin and Shachar Mirkin and Michal Jacovi and Yonatan Bilu and Ranit Aharonov and Noam Slonim},
title = {Towards Effective Rebuttal: Listening Comprehension using Corpus-Wide Claim Mining},
journal = {CoRR},
volume = {abs/1907.11889},
year = {2019},
url = {http://arxiv.org/abs/1907.11889},
archivePrefix = {arXiv},
eprint = {1907.11889},
timestamp = {Thu, 01 Aug 2019 08:59:33 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1907-11889},
bibsource = {dblp computer science bibliography, https://dblp.org}
}

関連リンク

  • Project Debater は、複雑なトピックについて人間とディベートできる初の AI システムです。このプロジェクトの目標は、人々が説得力のある討論を行った上で、十分な情報に基づく意思決定を行えるよう支援することです。Project Debater でのモデルのトレーニングには、このデータセットが活用されました。