开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

PubLayNet

概述

在将文档解析为机器可读的结构化格式以供下游应用程序使用时,一个重要的步骤就是识别非结构化数字文档的布局。事实证明,为计算机视觉而开发的深度神经网络是一种有效的文档图像布局分析方法。但是,与已建立的计算视觉数据集相比,当前公开可用的文档布局数据集要小几个数量级。这些模型必须根据基本模型通过迁移学习进行训练,基本模型则预先已在传统计算机视觉数据集上进行了训练。在本文中,我们开发了 PubLayNet 数据集,通过自动匹配 PubMed Central 上公开的超过 100 万篇 PDF 文章的 XML 表达式和内容来分析文档布局。该数据集的大小与已建立的计算机视觉数据集大小相当,包含超过 36 万个文档图像,其中对典型的文档布局元素进行了注解。实验证明,在 PubLayNet 上训练的深度神经网络可识别科学文章的布局。预先训练的模型也是一种更有效的基本模型,用于在不同文档领域进行迁移学习。我们发布这个数据集旨在支持开发和评估用于分析文档布局的更高级模型。

数据集元数据

格式 许可 领域 记录数 大小 最初发布日期
JPG
JSON
CDLA – 宽松 computer_vision 超过 34 万个带注解的图像
102GB 2019-08-07

引用

@article{zhong2019publaynet,
title={PubLayNet: largest dataset ever for document layout analysis},
author={Zhong, Xu and Tang, Jianbin and Yepes, Antonio Jimeno},
journal={arXiv preprint arXiv:1908.07836},
year={2019}
}

本文翻译自:PubLayNet(2019-10-25)