概述
音频样本生成器(Audio Sample Generator)可以基于现有音频片段数据集生成简短样本。它可以映射输入数据的样本空间,并生成体现声音主要特征的“中间帧”或“组合帧”的音频片段。该模型架构是一种生成式对抗神经网络,由 IBM CODAIT 团队在来自 Free Music Archive 的低保真器乐和来自语音命令数据集的简短口头命令上进行训练。该模型可以生成 1.5 秒的音频样本,内容包括 up
、down
、left
、right
、stop
、go
等词以及低保真器乐。该模型基于 WaveGAN 模型。
模型元数据
参考资料
- Chris Donahue、Julian McAuley 和 Miller Puckette,“Synthesizing Audio with Generative Adversarial Networks”,arXiv,2018 年。
- WaveGAN Github 代码库
- 语音命令数据集发布博客
- Free Music Archive
许可
组件 | 许可 | 链接 |
---|---|---|
模型 GitHub 代码库 | Apache 2.0 | 许可 |
模型权重 | Apache 2.0 | 许可 |
模型代码(第三方) | MIT | 许可 |
可用于部署此模型的选项
可使用以下方法部署此模型:
从 Dockerhub 部署:
docker run -it -p 5000:5000 codait/max-audio-sample-generator
在 Red Hat OpenShift 上部署:
遵照本教程中有关 OpenShift Web 控制台或 OpenShift Container Platform CLI 的操作说明,并指定
codait/max-audio-sample-generator
作为镜像名称。在 Kubernetes 上部署:
kubectl apply -f https://raw.githubusercontent.com/IBM//master/max-audio-sample-generator.yaml
本地部署:遵照 GitHub 上的模型 README 中的说明进行操作
用法示例
部署之后,您可以通过命令行测试该模型。例如,以下命令将从默认模型(低保真器乐)生成样本:
curl -X GET 'http://localhost:5000/model/predict' -H 'accept: audio/wav' > result.wav
这会将生成的音频文件保存为 result.wav
,然后您就可以在自己选择的音频播放器中打开该文件。
资源和贡献
如果您有兴趣为 Model Asset Exchange 项目做出贡献或有任何疑问,按照此处的说明进行操作。
本文翻译自:Audio Sample Generator(2018-09-21)