开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

概述

TensorFlow 语音命令集是一组一秒的 .wav 音频文件,每个文件包含一个英语口语单词。这些词来自一小组命令,由不同的人说出。其中有20个单词是核心单词,而10个单词是辅助单词,可以用作对算法的测试,从而忽略不包含触发器的语音。除了这 30 个单词,还有一组背景噪音音频文件。它是为有限词汇量的语音识别任务而设计的。这些音频片段最初由谷歌收集,由志愿者在世界各地随机录制。

数据集元数据

字段 选值
格式 WAV
许可 CC BY 4.0
Audio
记录数 65,000 WAV 文件
数据分配 51,094 录音片段用来训练,6,798 录音片段用来验证,6,835 录音片段用来测试
大小 1.49 GB
数据起源 该录音片段最初是由 Google收集。

录音 是由志愿者在世界各地随机录制。
数据集版本 第一版 – 2020 年 3 月 17 日
数据范围 核心词汇: Yes, No, Up, Down, Left, Right, On, Off, Stop, Go, Zero, One, Two, Three, Four, Five, Six, Seven, Eight, and Nine。

助词: Bed, Bird, Cat, Dog, Happy, House, Marvin, Sheila, Tree, and Wow。

背景噪音: doing_the_dishes, dude_miaowing, exercise_bike, pink_noise, running_tap, and white_noise。

通过存档的 README.md 文件了解更多的数据收集过程。
商业用例 构建广泛应用于物联网、汽车、安全、UX/UI 的语音识别系统。

构建基于语音的搜索应用程序和激活助手。

数据归档内容

文件 描述
31 音频剪辑的文件夹 包含音频剪辑的文件夹
testing_list.txt 测试集中所有文件的路径。
validation_list.txt 验证集中所有文件的路径。
LICENSE.txt 服务条款
README.md 解释数据收集、处理细节和拆分数据集的步骤

数据术语表和预览

单击这里 来浏览数据术语表、示例记录和其他数据集元数据。

使用数据集

此数据集将帮助您开始:

相关链接

引用

@article{speechcommands, title={Speech Commands: A public dataset for
single-word speech recognition.}, author={Warden, Pete}, journal={Dataset
available from
http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz}, year={2017}
}

本文翻译自:TensorFlow Speech Commands(2020-09-29)