开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

音频嵌入生成器

概述

音频嵌入生成器(Audio Embedding Generator)将带符号的 16 位 PCM wav 文件识别为输入信息,生成嵌入值,并将其应用 PCA 转换、量化,然后将结果输出为 1 秒嵌入数组。该模型已在 AudioSet 上进行了训练。正如在代码中所述,此模型 仅为示例,你可以在此基础上构建更复杂的模型。可查看 tensorflow/models Github 页面上的用法标题, 以便更详细地了解可能的用法。

模型元数据

领域 应用 行业 框架 训练数据 输入数据格式
音频 嵌入 多种 TensorFlow Google AudioSet 带符号的 16 位 PCM WAV 音频文件

参考资料

许可

组件 许可 链接
模型 GitHub 代码库 Apache 2.0 许可
模型文件 Apache 2.0 AudioSet
模型代码 Apache 2.0 AudioSet
测试资产 各种各样 样本 README

可用于部署此模型的选项

  • 从 Dockerhub 部署:

    docker run -it -p 5000:5000 codait/max-audio-embedding-generator
    
  • 在 Red Hat OpenShift 上部署:

    遵照本教程中有关 OpenShift Web 控制台或 OpenShift Container Platform CLI 的操作说明,并指定 codait/max-audio-embedding-generator 作为镜像名称。

  • 在 Kuberneters 上部署:

    kubectl apply -f https://raw.githubusercontent.com/IBM/MAX-Audio-Embedding-Generator/master/max-audio-embedding-generator.yaml
    

    有关如何将此 MAX 模型部署到 IBM Cloud 上的生产环境中的更详细教程,可以在此处找到。

  • 本地部署:遵照 GitHub 上的模型 README 中的说明进行操作

用法示例

部署之后,您可以通过命令行测试该模型。例如:

curl -F "audio=@samples/car-horn.wav" -XPOST http://localhost:5000/model/predict
{
  "status": "ok",
  "result": [
    [
      158,
      23,
      150,
      ...
    ],
    ...,
    ...,
    [
      163,
      29,
      178,
      ...
    ]
  ]
}

资源和贡献

如果您有兴趣为 Model Asset Exchange 项目做出贡献或有任何疑问,请按照此处的说明进行操作。

本文翻译自:Audio Embedding Generator(2018-09-21)