概要
このモデルは、符号付き 16 ビットの PCM wav ファイルを入力として認識して、埋め込みを生成します。
その埋め込みに PCA 変換/量子化を適用してから、
その結果を 1 秒間の埋め込みからなる配列として出力します。このモデルのトレーニングには、
AudioSet が使用されています。この
リンク先のコードで説明されているように、このモデルは
サンプルとして使用できるようになっています。場合によっては、より複雑なモデルを作成する出発点としても使用できます。考えられるさまざまな用途については、
tensorflow/models
GitHub ページ内の見出し「Usage」
を参照してください。
モデルのメタデータ
ドメイン | アプリケーション | 業種 | フレームワーク | トレーニング・データ | 入力データの形式 |
---|---|---|---|---|---|
音声 | 埋め込み | マルチ | TensorFlow | Google AudioSet | 符号付き 16 ビットの PCM WAV 音声ファイル |
参考資料
- J.F. Gemmeke、D. P. Ellis、D. Freedman、A. Jansen、W. Lawrence、R. C. Moore、M. Plakal、M. Ritter 共著「Audio set: An ontology and human-labeled dataset for audio events」(IEEE ICASSP、2017 年)
- S.Hershey、S. Chaudhuri、D. P. W. Ellis、J. F. Gemmeke、A. Jansen、R. C. Moore、M. Plakal、D. Platt、R. A. Saurous、B. Seybold 他 による共著「CNN architectures for large-scale audio classification」(arXiv のプリプリント arXiv:1609.09430、2016 年)
ライセンス
コンポーネント | ライセンス | リンク |
---|---|---|
モデルの GitHub リポジトリー | Apache 2.0 | LICENSE |
モデルのファイル | Apache 2.0 | AudioSet |
モデルのコード | Apache 2.0 | AudioSet |
テスト・アセット | 各種 | サンプルの README |
このモデルのデプロイ方法
Dockerhub からデプロイする場合:
docker run -it -p 5000:5000 codait/max-audio-embedding-generator
Red Hat OpenShift からデプロイする場合:
Follow the instructions for the OpenShift web console or the OpenShift Container Platform CLI in this tutorial and specify
codait/max-audio-embedding-generator
as the image name.Kuberneters 上にデプロイする場合:
kubectl apply -f https://raw.githubusercontent.com/IBM/MAX-Audio-Embedding-Generator/master/max-audio-embedding-generator.yaml
ローカルにデプロイする場合: GitHub 上のモデルの README に記載されている手順に従います。
使用例
モデルをデプロイしたら、コマンド・ラインからモデルをテストできます。以下に例を示します。
curl -F "audio=@assets/car-horn.wav" -XPOST http://localhost:5000/model/predict
{
"status": "ok",
"result": [
[
158,
23,
150,
...
],
...,
...,
[
163,
29,
178,
...
]
]
}