音声テキスト変換ユーティリティー

概要

音声をテキスト形式に変換するこのモデルは、英語の音声が含まれる短い (5 秒までの) 単一チャネルの WAV ファイルを入力として取り、 予測した音声からなる文字列を返します。

このモデルが期待するのは 16kHz の音声ですが、音声があらかじめ 16kHz になっていなければ入力からサンプルを抽出します。これにより、モデルの精度に悪影響が及ぼされる可能性があることに 注意してください。

このモデルには、Mozilla の Project DeepSpeech のコードが使用されています。 モデルのベースとなっているのは、Baidu の研究論文「Deep Speech」です。

モデルのメタデータ

ドメイン アプリケーション 業種 フレームワーク トレーニング・データ 入力データの形式
音声 音声認識 一般 TensorFlow Mozilla Common Voice 音声 (16 ビット、16 kHz のモノ WAV ファイル)

参考資料

ライセンス

コンポーネント ライセンス リンク
Model GitHub リポジトリー Apache 2.0 LICENSE
モデルの重み Mozilla Public License 2.0 Mozilla DeepSpeech
モデルのコード (サード・パーティー) Mozilla Public License 2.0 DeepSpeech の LICENSE
テスト・アセット 各種 サンプルの README

このモデルのデプロイ方法

このモデルは、以下のメカニズムを使用してデプロイできます。

  • Docker Hub からデプロイする場合:

    Docker イメージを実行するには、以下のコードを実行します。このイメージは、自動的にモデルを処理する API を起動します。

    docker run -it -p 5000:5000 codait/max-speech-to-text-converter
    

    これにより、Docker Hub から事前ビルドされたイメージがプルされて (または、既存のイメージがすでにローカルにキャッシュされている場合は、そのイメージが使用されて)、実行されます。 モデルをチェックアウトしてローカルでビルドする場合は、以下のローカルにデプロイする場合の手順に従ってください。

  • Red Hat OpenShift: からデプロイする場合:

    Follow the instructions for the OpenShift web console or the OpenShift Container Platform CLI in this tutorial and specify codait/max-speech-to-text-converter as the image name.

  • Kubernetes 上にデプロイする場合:

    Docker Hub 上の最新の Docker イメージを使用したモデルを Kubernetes 上にデプロイすることもできます。

    その場合は、Kubernetes クラスター上で以下のコマンドを実行します。

    kubectl apply -f https://raw.githubusercontent.com/IBM/max-speech-to-text-converter/master/max-speech-to-text-converter.yaml
    

    モデルは内部でポート 5000 で使用可能になりますが、NodePort を介して外部からアクセスすることもできます。

  • ローカルにデプロイする場合: GitHub 上のモデルの README に記載されている手順に従います。

cURL を使用してモデルをテストする

モデルをデプロイしたら、コマンド・ラインからモデルをテストできます。例えばローカルで実行する場合は、以下のコマンドを使用します。

curl -F "audio=@samples/8455-210777-0068.wav" -X POST http://localhost:5000/model/predict
{"status": "ok", "prediction": "your power is sufficient i said"}