音声埋め込みジェネレーター

概要

このモデルは、符号付き 16 ビットの PCM wav ファイルを入力として認識して、埋め込みを生成します。 その埋め込みに PCA 変換/量子化を適用してから、 その結果を 1 秒間の埋め込みからなる配列として出力します。このモデルのトレーニングには、 AudioSet が使用されています。この リンク先のコードで説明されているように、このモデルは サンプルとして使用できるようになっています。場合によっては、より複雑なモデルを作成する出発点としても使用できます。考えられるさまざまな用途については、 tensorflow/models GitHub ページ内の見出し「Usage」 を参照してください。

モデルのメタデータ

ドメイン アプリケーション 業種 フレームワーク トレーニング・データ 入力データの形式
音声 埋め込み マルチ TensorFlow Google AudioSet 符号付き 16 ビットの PCM WAV 音声ファイル

参考資料

ライセンス

コンポーネント ライセンス リンク
モデルの GitHub リポジトリー Apache 2.0 LICENSE
モデルのファイル Apache 2.0 AudioSet
モデルのコード Apache 2.0 AudioSet
テスト・アセット 各種 サンプルの README

このモデルのデプロイ方法

  • Dockerhub からデプロイする場合:

    docker run -it -p 5000:5000 codait/max-audio-embedding-generator
    
  • Red Hat OpenShift からデプロイする場合:

    Follow the instructions for the OpenShift web console or the OpenShift Container Platform CLI in this tutorial and specify codait/max-audio-embedding-generator as the image name.

  • Kuberneters 上にデプロイする場合:

    kubectl apply -f https://raw.githubusercontent.com/IBM/MAX-Audio-Embedding-Generator/master/max-audio-embedding-generator.yaml
    
  • ローカルにデプロイする場合: GitHub 上のモデルの README に記載されている手順に従います。

使用例

モデルをデプロイしたら、コマンド・ラインからモデルをテストできます。以下に例を示します。

curl -F "audio=@assets/car-horn.wav" -XPOST http://localhost:5000/model/predict
{
  "status": "ok",
  "result": [
    [
      158,
      23,
      150,
      ...
    ],
    ...,
    ...,
    [
      163,
      29,
      178,
      ...
    ]
  ]
}