音频样本生成器

概述

音频样本生成器(Audio Sample Generator)可以基于现有音频片段数据集生成简短样本。它可以映射输入数据的样本空间,并生成体现声音主要特征的“中间帧”或“组合帧”的音频片段。该模型架构是一种生成式对抗神经网络,由 IBM CODAIT 团队在来自 Free Music Archive 的低保真器乐和来自语音命令数据集的简短口头命令上进行训练。该模型可以生成 1.5 秒的音频样本,内容包括 updownleftrightstopgo 等词以及低保真器乐。该模型基于 WaveGAN 模型

模型元数据

领域 应用 行业 框架 训练数据 输入数据格式
音频 音频建模 通用 TensorFlow 语音命令FMA 曲目 WAV 音频文件

参考资料

许可

组件 许可 链接
模型 GitHub 代码库 Apache 2.0 许可
模型权重 Apache 2.0 许可
模型代码(第三方) MIT 许可

可用于部署此模型的选项

可使用以下方法部署此模型:

  • 从 Dockerhub 部署:

    docker run -it -p 5000:5000 codait/max-audio-sample-generator
    
  • 在 Red Hat OpenShift 上部署:

    遵照本教程中有关 OpenShift Web 控制台或 OpenShift Container Platform CLI 的操作说明,并指定 codait/max-audio-sample-generator 作为镜像名称。

  • 在 Kubernetes 上部署:

    kubectl apply -f https://raw.githubusercontent.com/IBM//master/max-audio-sample-generator.yaml
    

    有关如何将此 MAX 模型部署到 IBM Cloud 上的生产环境中的更详细教程,可以在此处找到。

  • 本地部署:遵照 GitHub 上的模型 README 中的说明进行操作

用法示例

部署之后,您可以通过命令行测试该模型。例如,以下命令将从默认模型(低保真器乐)生成样本:

curl -X GET 'http://localhost:5000/model/predict' -H 'accept: audio/wav' > result.wav

这会将生成的音频文件保存为 result.wav,然后您就可以在自己选择的音频播放器中打开该文件。

资源和贡献

如果您有兴趣为 Model Asset Exchange 项目做出贡献或有任何疑问,按照此处的说明进行操作。

本文翻译自:Audio Sample Generator(2018-09-21)