新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

IBM Debater® Multi Word Term Relatedness Benchmark

概要

多くの NLP アプリケーションでは、単語間の関連性の指標が重要な要素となります。このような指標を評価するために、これまでいくつかのデータセットが開発されていますが、既存のデータセットは単語を中心としています。これが主な欠点となるのは、自然言語の大きな部分は、複数の単語からなる用語で占められているからです。私たちが提案する新しい TR9856 データセットは、複数の単語からなる用語を中心としており、既存のデータセットよりも大幅にサイズが大きくなっています。この新しいデータセットは頭字語や名前付きエンティティーなどの実際の用語を数多く含んでいるだけでなく、すべての用語のペアにトピックというコンテキストを与えることで、用語の曖昧性にも対処しています。新しいデータに対して一般的な関連性の評価手法を適用した結果を示し、関連性の強さを利用することで、それぞれの手法を個別に使用するよりも、組み合わせた手法のほうがパフォーマンスに優れていることが明かになっています。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ 公開日
CSV
CC-BY-SA 3.0 自然言語処理 9,856 (ラベル付き用語ペア)
2.6 MB 2014 年 1 月 1 日

サンプル・レコード

topic,term1,term2,a1,a2,a3,a4,a5,a5,a7,a8,a9,a10,a11,a12,a13,a14,a15,a16,a17,a18,a19,a20,a21,a22,score
blasphemy should be criminalized,south park,religious,null,Unrelated,null,null,null,Unrelated,null,null,Unrelated,Unrelated,null,null,Unrelated,Unrelated,null,Unrelated,Unrelated,Unrelated,null,null,null,Unrelated,0
the sale of violent video games to minors should be banned,game,violent video games,null,null,null,null,Related,Related,Related,null,null,Related,null,null,Related,null,Related,null,null,null,Related,Related,Unrelated,Related,0.9
parents should be allowed to genetically screen fetuses for heritable diseases,quad test,presymptomatic testing,null,Related,null,null,null,Unrelated,null,null,Unrelated,Related,null,null,Related,Unrelated,null,Unrelated,Related,Related,null,null,null,Unrelated,0.5

抜粋

@InProceedings{levy-EtAl:2015:ACL-IJCNLP,
    author    = {Levy, Ran  and  Ein-Dor, Liat  and  Hummel, Shay  and  Rinott, Ruty  and  Slonim, Noam},
    title     = {TR9856: A Multi-word Term Relatedness Benchmark},
    booktitle = {Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers)},
    month     = {July},
    year      = {2015},
    address   = {Beijing, China},
    publisher = {Association for Computational Linguistics},
    pages     = {419--424},
    url       = {http://www.aclweb.org/anthology/P15-2069}
  }

関連リンク

  • IBM Project Debater は、複雑なトピックについて人間とディベートできる初の AI システムです。このプロジェクトの目標は、人々が説得力のある討論を行った上で、十分な情報に基づく意思決定を行えるよう支援することです。Project Debater でのモデルのトレーニングには、このデータセットが活用されました。