摘要
在本 Code Pattern 中,了解在提供任意视频的情况下,如何使用 IBM® Watson™ Speech To Text、Watson Natural Language Processing 和 Watson Tone Analysis 提取人声分离注释和有意义的洞察报告。
概览
在以虚拟方式互连的环境中,保持对工作或学习的专注度非常重要。研究表明,很多人对于直播虚拟会议或虚拟课堂的关注最多只能保持 20 分钟。因此,许多虚拟会议和虚拟课堂都会被录制下来,以供日后观看。
如果可以使用人工智能 (AI) 来分析这些录制内容并生成虚拟会议或虚拟课堂的详细报告,可能会有所帮助。本 Code Pattern 说明了如何实现此目标。本 Code Pattern 介绍了在提供虚拟会议或虚拟课堂的录制视频的情况下,如何使用 FFmpeg 开源库从视频文件中提取音频,使用自定义训练的语言和声学语音转文本模型来转录音频以获取人声分离注释,并使用 Python Flask 运行时生成自然语言理解报告(由类别、概念、情感、实体、关键字、情绪、排名靠前的肯定句和词云组成)。
学完本 Code Pattern 之后,您将掌握如何:
- 使用 Watson Speech to Text 服务将人声转换为文字
- 使用高级自然语言处理来分析文本并从内容中提取元数据,例如,概念、实体、关键字、类别、情绪和情感
- 利用 Watson Tone Analyzer 认知语言学分析,从句子和文档层面识别各种语气
流程
- 用户上传虚拟会议或虚拟课堂的录制视频文件。
- FFmpeg 库从视频文件中提取音频。
- Watson Speech To Text 服务转录音频,以提供人声分离文本输出。 1.(可选)Watson Language Translator 服务将其他语言翻译成英语文字记录。
- Watson Tone Analyzer 分析文字记录,并从文字记录中选择排名靠前的肯定句。
- Watson Natural Language Understanding 读取文字记录,识别关键事实并获取情绪和情感。
- 在应用程序中将视频的关键事实和摘要呈现给用户。
- 用户可以下载文本洞察。
操作说明
可以在 README 文件中找到详细步骤。这些步骤解释了如何:
- 克隆 GitHub 代码库。
- 将凭证添加到应用程序。
- 部署应用程序。
- 运行应用程序。
本 Code Pattern 是使用 IBM Watson 从视频中提取洞察用例系列的一部分,它展示了使用 Watson Speech to Text、Watson Natural Language Processing 和 Watson Tone Analyzer 服务从视频中提取有意义的洞察的解决方案。
本文翻译自:Extract insights from videos(2020-07-20)