新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

PubTabNet

概要

画像と HTML 形式の異種混合の表が含まれる PubTabNet は画像ベースの表認識モデルのトレーニングと評価に使用することができます。表の構造と内容の両方を認識する必要があるモデルは、このデータセットを使用することで、表の画像だけに基づいて表の HTML 表現を再現することができます。テーブルセルの位置(境界ボックス)も提供されており、より多様なモデル設計がサポートされています。表のソースとしては PubMed Central Open Access Subset (商用) を使用しました。PubMed Central Open Access Subset 内の記事の XML 形式と PDF 形式を照合して、(画像と HTML 形式両方で) 表が自動的に抽出されます。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ 公開日
PNG
JSON
CDLA – Permissive コンピューター・ビジョン 568,000 強 (画像)
30GB 2019 年 11 月 1 日

関連リンク

  • PubLayNet – ドキュメント・レイアウト分析用の過去最大のデータセット: PubLayNet は PubMed Central Open Access Subset のドキュメント画像を集めた大規模なデータセットです。各ドキュメントのレイアウトには、境界ボックスと多角形の区分の両方でアノテーションが付けられています。PubTabNet には表形式の要素のラベルが含まれている一方、PubLayNet には記事の一般的な意味論的理解を表すラベルが含まれています。