新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

PubLayNet

概要

ドキュメントを下流のアプリケーションで使用できるよう、構造化された機械可読形式にするには、構造化されていないデジタル・ドキュメントのレイアウトを認識することが重要なステップとなります。コンピューター・ビジョン用に開発された深層ニューラル・ネットワークは、ドキュメント画像のレイアウトを分析するのに効果的な手法であることが証明されています。けれども、現在一般に公開されているドキュメント・レイアウトのデータセットは、定評のあるコンピューター・ビジョン・データセットの規模には到底及びません。そのため、モデルをトレーニングするには、従来のコンピューター・ビジョン・データセットで事前トレーニングしたベース・モデルを使用した転移学習が必要になります。この記事で紹介する PubLayNet データセットは、PubMed Central 上で一般公開されている 100 万件を超える PDF 版記事と XML 表現を自動的に照合することによってドキュメントのレイアウトを分析するために開発したデータセットです。このデータセットの規模は定評のあるコンピューター・ビジョン・データセットに匹敵し、360,000 点のドキュメント画像が含まれています。しかも、典型的なドキュメント・レイアウトの要素にはアノテーションが付けられています。実験により、PubLayNet でトレーニングされた深層ニューラル・ネットワークは科学記事のレイアウトを正確に認識することが実証されています。異なるドキュメント・ドメインでの転送学習に使用する場合も、このデータセットで事前トレーニングされたモデルが効果的なベース・モデルになります。私たちは、ドキュメント・レイアウト分析用のより高度なモデルの開発と評価をサポートすることを目的に、このデータセットをリリースしています。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ 公開日
JPG
JSON
CDLA – Permissive コンピューター・ビジョン 340,000 強 (アノテーション付き画像)
102GB 2019 年8 月 7 日

抜粋

@article{zhong2019publaynet,
title={PubLayNet: largest dataset ever for document layout analysis},
author={Zhong, Xu and Tang, Jianbin and Yepes, Antonio Jimeno},
journal={arXiv preprint arXiv:1908.07836},
year={2019}
}