开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

通过文本生成类似人类的音频

摘要

使用 Node.js 和 React 组件,创建一个可通过文本生成类似人类的音频的 Web 应用程序。该应用程序使用 IBM® Watson™ Text to Speech 来提供多种声音并支持多种语言和性别。可以在 IBM Cloud 中使用 Watson Text to Speech,还可以在 IBM Cloud Pak™ for Data 中通过 Watson API 套件来使用 Watson Text to Speech。

概览

此文本转语音 Web 应用程序是使用 React 组件和 Node.js 服务器构建的,它将接收文本输入,并将其发送到 Watson Text to Speech 服务以使用您选择的声音读出该文本。提供了多种可用声音,包括男声和女声,涵盖了多种语言和地区。

通过将 SSML 元素添加到输入文本,可以控制声音。SSML 可用于控制节奏、表情、音调、呼吸、语速、发音等。

该应用程序旨在帮助您入门。文本转语音应用程序是一个有趣的示例,但只有在您使用此代码使自己的应用程序发出声音时,才会获得真正的结果。

可以在 IBM Cloud 中使用 Watson Text to Speech,还可以在 IBM Cloud Pak for Data 中通过 Watson API 套件来使用 Watson Text to Speech。通过 IBM Cloud Pak for Data,您可以在自己的私有云上或在运行 Red Hat OpenShift 的任何位置中配置 Watson Text to Speech。

完成本 Code Pattern 后,您将掌握如何:

  • 使用 REST API 从 Watson Text to Speech 服务中检索并播放音频
  • 在 Web 应用程序中集成 Watson Text to Speech 服务
  • 使用 React 组件和 Node.js 服务器

流程

通过文本生成类似人类的音频

  1. 用户向应用程序(在本地、IBM Cloud 或 IBM Cloud Pak for Data 中运行)提供一些文本作为输入。
  2. 应用程序将文本发送到 Text to Speech 服务。
  3. 处理完该数据后,Text to Speech 服务将音频信息返回到 HTML5 音频元素以进行回放。

操作说明

可以在 readme 文件中找到本 Code Pattern 的详细步骤。这些步骤将展示如何:

  1. 配置 Watson Text to Speech 服务。
  2. 部署服务器。
  3. 使用 Web 应用。

本文翻译自:Generate human-like audio from text(2020-07-09)