新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

IBM Debater® Recorded Debating #1

概要

競技ディベートに参加する Project Debater は、人間の討議相手が唱える論拠に対して効果的に反論する必要があります。このシステムで討議のスピーチをリアルタイムで聴取し、主な論拠を理解して、説得力のある反論を行う必要があります。

討議分野の性質と、競技ディベートに伴う特性から、こうした音声コンテンツの内容を理解するのは非常に困難です。人が表現する考えは、複数の連続していないセンテンスにまたがっていることが多く、多くの論拠は明示的に述べられるというよりも、それとなく示唆されます。さらに、数分間にわたるスピーチの最も重要な部分を特定し、反論しなければならないという要件から生じる難しさもあります。これとは対照的に、現在の会話型エージェントは短い入力から単一の実用的な命令を理解することを目的としています。このデータセットの目標は、この困難な背景において、聴いて理解するアルゴリズムを開発する基盤となることです。

このデータセットのリリース 1 には、意見の分かれる 16 のトピックについて記録した 60 件のスピーチと、記録プロセスの詳細が含まれています。

記録された討論は、以下の形式で提供されています。

  • 録音された音声 (wav ファイル)
  • 自動音声認識 (ASR) システムを使用して音声から生成されたテキスト (テキスト・ファイル)
  • 専門的なアノテーターにより、手作業で ASR テキストを修正して作成されたトランスクリプト (テキスト・ファイル)

ASR とトランスクリプトのテキストは、音声に含まれる各発話の時間を示した未加工のバージョンの他、話し言葉だけを含む「NLP フレンドリー」なクリーン・バージョンも用意されています。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ
WAV
TXT
CC-BY-SA 3.0 自然言語処理 60 件のスピーチ
16 のトピック
1.6GB

抜粋

@InProceedings{MIRKIN18.66,
author = {Shachar Mirkin and Michal Jacovi and Tamar Lavee and Hong-Kwang Kuo and Samuel Thomas and Leslie Sager and Lili Kotlerman and Elad Venezian and Noam Slonim},
title = "{Recorded Debating Speeches}",
booktitle = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)},
year = {2018}
}

関連リンク

  • Project Debater は、複雑なトピックについて人間とディベートできる初の AI システムです。このプロジェクトの目標は、人々が説得力のある討論を行った上で、十分な情報に基づく意思決定を行えるよう支援することです。Project Debater でのモデルのトレーニングには、このデータセットが活用されました。