新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

Groningen Meaning Bank – 修正版

概要

Groningen Meaning Bank (GMB) は、複数のセンテンスで構成されたテキストと、品詞のアノテーション、名前付きエンティティー、語彙カテゴリー、およびその他の自然言語構造的現象の情報からなるデータセットです。フローニンゲン大学で開発されたこのデータセットは 5 つのソースから取得されたドキュメントで構成されており、その大半は Voice of America (VOA) Web サイトのニュース記事が占めています。GMB データセットのこのサブセットは、コンピューター・スクリプトによってパブリック・ドメインであることが確認されたドキュメントからなります。このサブセットに含まれるのは、VOA が作成したドキュメントおよび、MASC データセットと CIA の「ザ・ワールド・ファクトブック」から収集されたドキュメントのみです。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ
IOB 形式) CDLA-Sharing 自然言語処理 1,314,115 (センテンス) 10MB

サンプル・レコード

Masked O
assailants O
with O
grenades O
and O
automatic O
weapons O
attacked O
a O
wedding O
party O
in O
southeastern O
Turkey B-GEO
, O
killing O
45 O
people O
and O
wounding O
at O
least O
six O
others O
. O

Turkish B-GPE
officials O

抜粋

@incollection{Bos2017GMB,
   title     = {The Groningen Meaning Bank},
   author    = {Bos, Johan and Basile, Valerio and Evang, Kilian and Venhuizen, Noortje and Bjerva, Johannes},
   booktitle = {Handbook of Linguistic Annotation},
   editor    = {Ide, Nancy and Pustejovsky, James},
   publisher = {Springer},
   volume    = {2},
   pages     = {463--496},
   year      = {2017}
}

関連リンク