开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

IBM Debater® 辩论录音 #1

概述

Project Debater 在参加竞技辩论时需要有力地反驳人类对手提出的论点。此系统必须实时倾听辩论发言,了解主要论点,并生成具有说服力的反对论点。

辩论领域的本质以及竞技辩论的特点让这类口头内容理解起来十分困难。表达的观点往往分散在多个不连贯的句子中,并且许多论点都不是明确陈述出来,而是拐弯抹角地提及。难上加难的是,系统还需要识别并反驳长达几分钟的发言中最重要的内容。这与目前的对话式代理正好相反,后者只要理解简短输入中的单条功能性命令。IBM Debater® 辩论录音(IBM Debater® Recorded Debating)的目的是在这种充满挑战的环境中,为听力理解算法的开发奠定基础。

数据集的发行版 #1 包含有关 16 个争议性主题的 60 条录音,并详细说明了录音过程。

辩论录音以各种格式提供:

  • 录制的音频(wav 文件)
  • 利用自动语音识别 (ASR) 系统从音频生成的文本(文本文件)
  • 由专业注解员制作的手动校正后的 ASR 文本脚本(文本文件)

ASR 文本和脚本文本均以原始格式提供,同时指定了音频中每次发言的时间,另外还提供“NLP 友好型”纯净版本,其中仅包含所说的词汇。

数据集元数据

格式 许可 领域 记录数 大小
WAV
TXT
CC-BY-SA 3.0 自然语言处理 60 条语音
16 个主题
1.6GB

引用

@InProceedings{MIRKIN18.66,
author = {Shachar Mirkin and Michal Jacovi and Tamar Lavee and Hong-Kwang Kuo and Samuel Thomas and Leslie Sager and Lili Kotlerman and Elad Venezian and Noam Slonim},
title = "{Recorded Debating Speeches}",
booktitle = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)},
year = {2018}
}

相关链接

  • Project Debater Project Debater 是首个可围绕复杂主题与人类展开辩论的 AI 系统。目标在于帮助人们摆出有说服力的论据,做出明智的决策。此数据集有助于在 Project Debater 中训练模型。

本文翻译自:IBM Debater® Recorded Debating #1(2019-08-03)