新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

IBM Debater® Labeled Emphasized Words in Speech

概要

このデータセットは、2012 年の Wikipedia から集められた、聴衆を対象としたスピーチに含まれる 4,002 個のセンテンスからなる 2,485 個のパラグラフで構成されています。

これらのパラグラフは、アメリカ英語を母国語とするプロの女性のナレーターにより、説得力のある精力的な形で読み上げられています。この録音されたスピーチを基に、4 人のラベル付けの専門家が各センテンスの強調語にアノテーションを付けました。元のテキストと録音されたデータについて、4 人の専門家に対して提示されたガイドラインは次のとおりです。

i) 強調語とは、スピーチの中で、センテンスに含まれる他の大半の言葉よりも明らかに目立っている単語のことである。

ii) テキストに含まれる単語の重要性ではなく、スピーチだけに基づいてラベルを付けること。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ 公開日
TXT
CC-BY-SA 3.0 自然言語処理 2,485 (強調語が含まれるセンテンス)
3.3 MB 2018 年 9 月 2 日

サンプル・レコード

Exposure to <style=emphasized_word> violent </style=emphasized_word> video games causes at least a temporary increase in <style=emphasized_word> aggression </style=emphasized_word> and this exposure correlates with <style=emphasized_word> aggression </style=emphasized_word> in the real world.    Exposure to <style=emphasized_word> violent </style=emphasized_word> video games causes at least a temporary increase in <style=emphasized_word> aggression </style=emphasized_word> and this exposure correlates with <style=emphasized_word> aggression </style=emphasized_word> in the real world.A single child would be left with having to provide support for his or her <style=emphasized_word> two </style=emphasized_word> parents and <style=emphasized_word> four </style=emphasized_word> grandparents.The pursuit of <style=emphasized_word> doping </style=emphasized_word> athletes has turned into a modern day <style=emphasized_word> witch </style=emphasized_word>-<style=emphasized_word> hunt </style=emphasized_word>.
A single child would be left with having to provide support for his or her <style=emphasized_word> two </style=emphasized_word> parents and <style=emphasized_word> four </style=emphasized_word> grandparents.    
The pursuit of <style=emphasized_word> doping </style=emphasized_word> athletes has turned into a modern day <style=emphasized_word> witch </style=emphasized_word>-<style=emphasized_word> hunt </style=emphasized_word>.

関連リンク

  • IBM Project Debater は、複雑なトピックについて人間とディベートできる初の AI システムです。このプロジェクトの目標は、人々が説得力のある討論を行った上で、十分な情報に基づく意思決定を行えるよう支援することです。Project Debater でのモデルのトレーニングには、このデータセットが活用されました。