新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

IBM Debater® Thematic Clustering of Sentences

概要

テキスト・クラスタリングは、単語単位からドキュメント全体まで、さまざまなレベルでクラスタリングを適用できます。また、クラスタリングの目標もさまざまに異なります。テーマを基準としたクラスタリングでは、同様のテーマを持つテキストをクラスタリングすることが目標となります。つまり、同じテーマについて論じているテキストをグループ化するということです。「Thematic Clustering of Sentences」データセットに含まれるセンテンスは、それぞれが属するテーマ別クラスターに応じてアノテーションが付けられています。

データセットのメタデータ

フィールド
Format CSV
License CC-BY-SA 3.0
Domain Natural Language Processing
Number of Records 692 articles
Data Split N/A
Size 10.6 MB
Author Ein-Dor, Liat and Mass, Yosi and Halfon, Alon and Venezian, Elad and Shnayderman, Ilya and Aharonov, Ranit and Slonim, Noam
Dataset Origin IBM Research – Project Debater
Dataset Version Update Version 1.0.2 – 2018-10-27
Data Coverage The dataset contains 692 articles from Wikipedia, where the number of sections(clusters) in each article ranges from 5 to 12, and the number of sentences per article ranges from 17 to 1614.
Business Use Case Document Understanding Thematic clustering of sentences is important for various use cases. For example, in multi-document summarization, one often extracts sentences from multiple documents that should be organized into meaningful sections and paragraphs. Similarly, within the emerging field of computational argumentation, arguments may be found in a widespread set of articles, which further require thematic organization to generate a compelling argumentative narrative

データセットのアーカイブコンテンツ

ファイル/フォルダー 説明
dataset.csv Contains all their sentences and thematic clusters
LICENSE.txt Terms of Use
README.txt Description of files and the data

データ用語集とプレビュー

ここをクリック して、データ用語集、サンプルレコード、その他のデータセットのメタデータを検索してください。

データセットを使用する

このデータセットは、データ探索のためのPythonノートブックによって補完されています。

関連リンク

  • Project Debater は、複雑なトピックについて人間とディベートできる初の AI システムです。このプロジェクトの目標は、人々が説得力のある討論を行った上で、十分な情報に基づく意思決定を行えるよう支援することです。Project Debater でのモデルのトレーニングには、このデータセットが活用されました。

抜粋

@inproceedings{dor2018learning,
title={Learning Thematic Similarity Metric from Article Sections Using Triplet Networks},
author={Ein-Dor, Liat and Mass, Yosi and Halfon, Alon and Venezian, Elad and Shnayderman, Ilya and Aharonov, Ranit and Slonim, Noam},
booktitle={Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)},
pages={49--54},
year={2018}
}