开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

PubTabNet

概述

PubTabNet 包含图像格式和 HTML 格式的异构表格。PubTabNet 可以用来训练和评估基于图像的表格识别模型。模型需要识别表格的结构和内容,并且能够完全依赖表图像来重构表格的 HTML 表达式。HTML 表达式既对表格的结构编码,也对每个表格单元格中的内容进行编码。还提供了表格单元的位置(边界框)以支持更多不同的模型设计。表格的来源是 PubMed Central 开放存取子集(商用集合)。通过匹配 PubMed Central 开放存取子集中文章的 PDF 格式和 XML 格式,来自动提取表格(图像格式和 HTML 格式)。

数据集元数据

格式 许可 领域 记录数 大小 最初发布日期
PNG
JSON
CDLA – 宽松 计算机视觉 超过 56.8 万个图像
30GB 2019-11-01

相关链接

  • PubLayNet – 有史以来最大的文档布局分析数据集 PubLayNet 是来自 PubMed Central 开放存取子集的文档图像的大型数据集。每个文档的布局都用边界框和多边形分割进行了注解。PubTabNet 包含用于表格元素的标签,而 PubLayNet 则包含用于从一般语义角度理解论文的标签。

    本文翻译自:PubTabNet(2020-07-20)