新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

IBM Debater® Mention Detection Benchmark

概要

このデータセットに含まれる 3,000 個のセンテンスは次の構成になっています。

  • Wikipedia の記事から収集された、各種トピックについてディスカッションしている 1,000 個のセンテンス。これには Debatabase でのトピックも含まれます。
  • これらのトピックのいくつかについてディスカッションするプロのナレーターから収集した 1,000 個のセンテンス。これらのセンテンスには 2 つの形式があります (したがって合計で 2,000 個のセンテンスになります)。一方は自動音声認識 (ASR) エンジンの出力、もう一方は手作業でデータをクレンジングしたディスカッションのトランスクリプションです。

Wikipedia のセンテンスには合計で 6,375 個のメンション、口述のセンテンスには合計で 6,239 個のメンションがあります。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ 公開日
ANN
CC-BY-SA 3.0 自然言語処理 3,000 (センテンスおよびメンション)
1.8 MB 2018 年 1 月 25 日

サンプル・レコード

history|||http://dbpedia.org/resource/History|||34|||41
prejudice|||http://dbpedia.org/resource/Prejudice|||60|||69
societal level|||http://dbpedia.org/resource/Social_structure|||75|||89
consequences|||http://dbpedia.org/resource/Consequentialism|||157|||169
consequences|||http://dbpedia.org/resource/Unintended_consequences|||157|||169
affirmative action|||http://dbpedia.org/resource/Affirmative_action|||241|||259

関連リンク

  • IBM Project Debater は、複雑なトピックについて人間とディベートできる初の AI システムです。このプロジェクトの目標は、人々が説得力のある討論を行った上で、十分な情報に基づく意思決定を行えるよう支援することです。Project Debater でのモデルのトレーニングには、このデータセットが活用されました。