新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

フォーラム要約

概要

クローリングされた Web ページを前処理して同じスレッドに属するすべてのページを特定した後、これらのページを処理して各種の構造ユニットとそれぞれのユニットに関連するメタデータ (タイトル、投稿、ユーザー ID など) を特定しました。語幹抽出には、Porter のステマーを使用しています。また、ストップ・ワードを削除するために、Onix Test Retrieval Toolkit で使用されている一般的な 429 単語のストップ・ワード・リストを使用しました。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ
XML
CC BY-SA 4.0 自然言語処理 113,277 個のディスカッション・スレッド
25 個のクエリー
104 MB (圧縮時)

引用

@conference{Bhatia2012,
author="Sumit Bhatia
and Prakhar Biyani
and Prasenjit Mitra",
title="Classifying User Messages For Managing Web Forum Data",
booktitle="International Work- shop on the Web and Databases",
year="2012",
pages="13-18
}