开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

格罗宁根语义库 – 修订版

概述

格罗宁根语义库 (Groningen Meaning Bank, GMB) 是一个多语句文本的数据集,包括词性、命名实体、词汇类别和其他自然语言结构现象的注解。

数据集元数据

字段
格式 IOB 格式
许可 CDLA-共享
领域 自然语言处理
记录数 1,314,115(语句)
大小 10 MB
来源 格罗宁根大学
数据集版本更新 第 2 版 – 2020 年 5 月 14 日
第 1 版 – 2019 年 12 月 19 日
数据范围 该子集仅包含 VOA 创作的文档,以及来自 MASC 数据集和美国中央情报局世界各国年鉴(CIA World Factbook)的文档。
业务应用案例 语言学: 可用于训练模型以执行命名实体识别或词性标记,以及生成新的文本特征。

数据集存档内容

文件或文件夹 描述
gmb_subset_full.txt 原始数据集的完整版本。 用于训练 MAX 模型 – 命名实体标注器。
LICENSE.txt 使用条款
README.txt 解释数据集信息

数据词汇表和预览

单击此处以浏览数据词汇表,样本记录和其他数据集元数据。

使用数据集

数据探索和数据分析 Python Notebook 补充了此数据集,可帮助您快速入门:

引用

@incollection{Bos2017GMB,
   title     = {The Groningen Meaning Bank},
   author    = {Bos, Johan and Basile, Valerio and Evang, Kilian and Venhuizen, Noortje and Bjerva, Johannes},
   booktitle = {Handbook of Linguistic Annotation},
   editor    = {Ide, Nancy and Pustejovsky, James},
   publisher = {Springer},
   volume    = {2},
   pages     = {463--496},
   year      = {2017}
}

相关链接

本文翻译自:Groningen Meaning Bank – Modified(2020-05-14)