概述
音频嵌入生成器(Audio Embedding Generator)将带符号的 16 位 PCM wav 文件识别为输入信息,生成嵌入值,并将其应用
PCA 转换、量化,然后将结果输出为 1 秒嵌入数组。该模型已在 AudioSet 上进行了训练。正如在代码中所述,此模型
仅为示例,你可以在此基础上构建更复杂的模型。可查看 tensorflow/models
Github 页面上的用法标题,
以便更详细地了解可能的用法。
模型元数据
领域 | 应用 | 行业 | 框架 | 训练数据 | 输入数据格式 |
---|---|---|---|---|---|
音频 | 嵌入 | 多种 | TensorFlow | Google AudioSet | 带符号的 16 位 PCM WAV 音频文件 |
参考资料
- J.F. Gemmeke、D. P. Ellis、D. Freedman、A. Jansen、W. Lawrence、R. C. Moore、M. Plakal 和 M. Ritter,“Audio set: An ontology and human-labeled dataset for audio events”,IEEE ICASSP,2017 年。
- S.Hershey、S. Chaudhuri、D. P. W. Ellis、J. F. Gemmeke、A. Jansen、R. C. Moore、M. Plakal、D. Platt、R. A. Saurous 及 B. Seybold 等人,“CNN architectures for large-scale audio classification”,arXiv 预印本 arXiv:1609.09430,2016 年。
许可
组件 | 许可 | 链接 |
---|---|---|
模型 GitHub 代码库 | Apache 2.0 | 许可 |
模型文件 | Apache 2.0 | AudioSet |
模型代码 | Apache 2.0 | AudioSet |
测试资产 | 各种各样 | 样本 README |
可用于部署此模型的选项
从 Dockerhub 部署:
docker run -it -p 5000:5000 codait/max-audio-embedding-generator
在 Red Hat OpenShift 上部署:
遵照本教程中有关 OpenShift Web 控制台或 OpenShift Container Platform CLI 的操作说明,并指定
codait/max-audio-embedding-generator
作为镜像名称。在 Kuberneters 上部署:
kubectl apply -f https://raw.githubusercontent.com/IBM/MAX-Audio-Embedding-Generator/master/max-audio-embedding-generator.yaml
本地部署:遵照 GitHub 上的模型 README 中的说明进行操作
用法示例
部署之后,您可以通过命令行测试该模型。例如:
curl -F "audio=@samples/car-horn.wav" -XPOST http://localhost:5000/model/predict
{
"status": "ok",
"result": [
[
158,
23,
150,
...
],
...,
...,
[
163,
29,
178,
...
]
]
}
资源和贡献
如果您有兴趣为 Model Asset Exchange 项目做出贡献或有任何疑问,请按照此处的说明进行操作。
本文翻译自:Audio Embedding Generator(2018-09-21)