新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

IBM Debater® Concept Abstractness

概要

ある表現によって表されたエンティティーを、人間の感覚でどれほど直接的に認知できるかは、抽象性によって定量化されます。一例として、「フェミニズム」という単語は一般に抽象的な概念として捉えられますが、「スクリュードライバー」という単語には具体的な意味が関連付けられます。 リリースされたこのデータセットは、抽象性の度合いを自動的に評価した、Wikipedia に含まれる 300,000 個のコンセプトからなります。

データセットのメタデータ

フィールド
Format CSV
License CC-BY-SA 3.0
Domain Natural Language Processing
Number of Records 300,000 words or phrases
Data Split 100,00 each of Unigrams, Bigrams and Trigrams
Size 3.6 MB
Author Ella Rabinovich, Benjamin Sznajder, Artem Spector, Ilya Shnayderman, Ranit Aharonov, David Konopnicki, Noam Slonim
Dataset Origin IBM Research – Project Debater
Dataset Version Update Version 1.0.2 – 2018-10-27
Data Coverage 300K concepts from Wikipedia comprised of 1-3 worded phrases/words.
Business Use Case Document Understanding Automatically tag document titles for their degree of abstractness. This can be used when maintaining a catalogue of documents and can aid recommender systems or retrieval systems.

データセットのアーカイブコンテンツ

ファイル/フォルダー 説明
predictions_unigrams.csv Concepts and abstractness scores for unigrams (single worded concepts)
predictions_bigrams.csv Concepts and abstractness scores for bigrams (two word concepts)
predictions_trigrams.csv Concepts and abstractness scores for trigrams (three word concepts)
LICENSE.txt Terms of Use
README.txt Description of files and the data

Data Glossary and Preview

ここをクリック して、データ用語集、サンプルレコード、その他のデータセットのメタデータを検索してください。

データセットを使用する

このデータセットは、データ探索のための Python ノートブックによって補完されています。

関連リンク

  • Project Debater は、複雑なトピックについて人間とディベートできる初の AI システムです。このプロジェクトの目標は、人々が説得力のある討論を行った上で、十分な情報に基づく意思決定を行えるよう支援することです。Project Debater でのモデルのトレーニングには、このデータセットが活用されました。

抜粋

@article{DBLP:journals/corr/abs-1809-01285,
    author    = {Ella Rabinovich and
                 Benjamin Sznajder and
                 Artem Spector and
                 Ilya Shnayderman and
                 Ranit Aharonov and
                 David Konopnicki and
                Noam Slonim},
    title     = {Learning Concept Abstractness Using Weak Supervision},
    journal   = {CoRR},
    volume    = {abs/1809.01285},
    year      = {2018},
    url       = {http://arxiv.org/abs/1809.01285},
    archivePrefix = {arXiv},
    eprint    = {1809.01285},
    timestamp = {Fri, 05 Oct 2018 11:34:52 +0200},
    biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1809-01285},
    bibsource = {dblp computer science bibliography, https://dblp.org}
  }