新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

IBM Debater® Wikipedia Oriented Relatedness

概要

WORD (Wikipedia Oriented Relatedness Dataset) は、新しいタイプのコンセプト関連性データセットで、19,276 個のペアから構成されています。WORD は初めて人間がアノテーションを付けた、Wikipedia に含まれるコンセプトからなるデータセットであり、2 つの目的があります。1 つは、コンセプトの関連性を評価する手法のベンチマークとしての役割を果たすことです。もう 1 つは、コンセプトの関連性を予測する新しいモデルを開発する際の教師付き機械学習でのデータとして使用できるようにすることです。用語間の関連性を対象としたデータセットと比べ、このデータセットにはさまざまな利点があります。そのうち特筆すべきなのは、曖昧性解消ソリューションが組み込まれていること、そして複数の単語からなる有意義な用語が豊富に含まれていることです。

データセットのメタデータ

フィールド
Format CSV
License CC-BY-SA 3.0
Domain Natural Language Processing
Number of Records 19,276 concept pairs
Data Split NA
Size 3.4 MB
Dataset Origin IBM Project Debater
Dataset Version Update Version 1 – June 06, 2017
Data Coverage Random concept pairs based on 38,552 randomly selected Wikipedia articles
Business Use Case Automated Customer Service: Train a chatbot to label and compare user query’s concept type with list of available concepts the chatbot is capable of discussing.

データセットのアーカイブコンテンツ

ファイル/フォルダー 説明
AnnotationGuidelines.docx The labeling task guidelines used to label concept pairs
WORD.csv Raw data
LICENSE.txt Terms of Use
README.txt Explains dataset information

データ用語集とプレビュー

ここをクリック して、データ用語集、サンプルレコード、その他のデータセットのメタデータを検索してください。

データセットを使用する

このデータセットは、データ探査ノートで補完されているので、データ探査を始めるのに役立ちます。

関連リンク

  • Project Debater は、複雑なトピックについて人間とディベートできる初の AI システムです。このプロジェクトの目標は、人々が説得力のある討論を行った上で、十分な情報に基づく意思決定を行えるよう支援することです。Project Debater でのモデルのトレーニングには、このデータセットが活用されました。

抜粋

@inproceedings{dor2018semantic,
title={Semantic Relatedness of Wikipedia Concepts--Benchmark Data and a Working Solution},
author={Ein-Dor, Liat and Halfon, Alon and Kantor, Yoav and Levy, Ran and Mass, Yosi and Rinott, Ruty and Shnarch, Eyal and Slonim, Noam},
booktitle={Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018)},
year={2018}
}