Optical Character Recognition

概要

このリポジトリーには光学式文字認識モデルをインスタンス化してデプロイするためのコードが格納されています。このモデルは入力として テキストの画像を取り、予測したテキストを返します。モデルのトレーニングに使用したのは、94 文字からなる 20 個のサンプルについて、フォントを 8 通り、 属性を 4 通り (通常、太字、斜体、太字 + 斜体) で変えた合計 60,160 個のトレーニング・サンプルです。モデルのトレーニング方法について詳しくは、 「An Overview of the Tesseract OCR Engine」 を参照してください。

モデルのメタデータ

ドメイン アプリケーション 業種 フレームワーク トレーニング・データ 入力データ形式
画像および動画 光学式文字認識 一般 適用外 Tesseract データ・ファイル 画像 (PNG/JPG)

参考資料

ライセンス

コンポーネント ライセンス リンク
このリポジトリー Apache 2.0 LICENSE
モデルのコード (サード・パーティー) Apache 2.0 Tesseract OCR リポジトリー
テスト・サンプル Apache 2.0 サンプルの README

このモデルのデプロイ方法

  • Dockerhub からデプロイする場合:

    docker run -it -p 5000:5000 codait/max-ocr
    
  • Red Hat OpenShift 上にデプロイする場合:

    このチュートリアルで説明している手順に従って、OpenShift Web コンソールまたは OpenShift Container Platform CLI を使用してデプロイします。画像の名前としては、codait/max-ocr を使用してください。

  • Kubernetes 上にデプロイする場合:

    kubectl apply -f https://raw.githubusercontent.com/IBM/MAX-OCR/master/max-ocr.yaml
    

    ここをクリックして、この MAX モデルを IBM Cloud 上にデプロイする方法を詳しく説明しているチュートリアルを参照してください。

  • ローカルにデプロイする場合: GitHub 上に置かれているモデルの README で説明している手順に従ってください。

cURL を使用してモデルをテストする

モデルをデプロイしたら、コマンド・ラインからモデルをテストできます。例えばローカルで実行する場合は、以下のコマンドを使用します。

curl -F "image=@samples/quick_start_watson_studio.jpg" -XPOST http://localhost:5000/model/predict
{
  "status": "ok",
  "text": [
    [
      "Quick Start with Watson Studio"
    ],
    [
      "Watson Studio is IBM’s hosted notebook service, and you can create",
      "a free account at https://www.ibm.com/cloud/watson-studio. Other",
      "hosted notebook services can be used to run the noteooks as well,",
      "but Watson Studio offers all of the frameworks and languages that",
      "are used for this book’s examples. Once you have created an account",
      "and logged in, you can begin by creating a project and notebook."
    ]
  ]
}

リソースとコントリビューション

Model Asset Exchange プロジェクトへのコントリビューションにご興味がある場合、またはご不明な点がある場合は、このリンク先で説明している手順に従ってください。