使用人声分离功能构建自定义语音转文本模型

摘要

在本 Code Pattern 中,了解如何训练自定义的语言和声音语音转文本模型来转录音频文件,以便在提供语料库文件以及会议或课堂的录音的情况下获取人声分离输出。

概览

IBM® Watson™ Speech to Text 服务能够从音频文件中检测出不同的人声,此功能称为“人声分离”。本 Code Pattern 展示了这项功能,具体操作如下:使用语料库文本文件训练自定义语言模型,并使用“未收录”词训练该模型,然后使用音频文件训练自定义声学模型,即在 Python Flask 运行时中使用“重音”检测来训练该模型。

学完本 Code Pattern 之后,您将掌握如何:

  • 使用语料库文件训练自定义语言模型
  • 使用存储区中的音频文件训练自定义声学模型
  • 转录存储区中的音频文件,并获取人声分离文本输出
  • 将文字记录存储在存储区中

流程

自定义语音转文本模型的人声分离流程

  1. 用户将语料库文件上载到应用程序。
  2. 从 IBM Cloud Object Storage 中检索上一个 Code Pattern 中提取的音频。
  3. 将语料库文件和提取的音频上载到 Watson Speech To Text 服务,以便训练自定义模型。
  4. 使用自定义语音转文本模型,对上一个 Code Pattern 所下载的音频文件进行转录,然后将文本文件存储在 IBM Cloud Object Storage 中。

操作说明

可在 README 文件中获取详细的操作说明。这些步骤解释了如何:

  1. 克隆 GitHub 代码库。
  2. 创建 Watson Speech to Text 服务。
  3. 将凭证添加到应用程序。
  4. 部署应用程序。
  5. 运行应用程序。

本 Code Pattern 是使用 IBM Watson 从视频中提取洞察用例系列的一部分,它展示了使用 Watson Speech to Text、Watson Natural Language Processing 和 Watson Tone Analyzer 服务从视频中提取有意义的洞察的解决方案。

本文翻译自:Build a custom speech-to-text model with speaker diarization capabilities(2020-07-20)