概述
格罗宁根语义库 (Groningen Meaning Bank, GMB) 是一个多语句文本的数据集,包括词性、命名实体、词汇类别和其他自然语言结构现象的注解。
数据集元数据
字段 | 值 |
---|---|
格式 | IOB 格式 |
许可 | CDLA-共享 |
领域 | 自然语言处理 |
记录数 | 1,314,115(语句) |
大小 | 10 MB |
来源 | 格罗宁根大学 |
数据集版本更新 | 第 2 版 – 2020 年 5 月 14 日 第 1 版 – 2019 年 12 月 19 日 |
数据范围 | 该子集仅包含 VOA 创作的文档,以及来自 MASC 数据集和美国中央情报局世界各国年鉴(CIA World Factbook)的文档。 |
业务应用案例 | 语言学: 可用于训练模型以执行命名实体识别或词性标记,以及生成新的文本特征。 |
数据集存档内容
文件或文件夹 | 描述 |
---|---|
gmb_subset_full.txt |
原始数据集的完整版本。 用于训练 MAX 模型 – 命名实体标注器。 |
LICENSE.txt |
使用条款 |
README.txt |
解释数据集信息 |
数据词汇表和预览
单击此处以浏览数据词汇表,样本记录和其他数据集元数据。
使用数据集
数据探索和数据分析 Python Notebook 补充了此数据集,可帮助您快速入门:
引用
@incollection{Bos2017GMB,
title = {The Groningen Meaning Bank},
author = {Bos, Johan and Basile, Valerio and Evang, Kilian and Venhuizen, Noortje and Bjerva, Johannes},
booktitle = {Handbook of Linguistic Annotation},
editor = {Ide, Nancy and Pustejovsky, James},
publisher = {Springer},
volume = {2},
pages = {463--496},
year = {2017}
}
相关链接
本文翻译自:Groningen Meaning Bank – Modified(2020-05-14)