开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

IBM Debater® 辩论录音 #3

概述

Project Debater 在参加竞技辩论时需要有力地反驳人类对手提出的论点。此系统必须实时倾听辩论发言,了解主要论点,并生成具有说服力的反对论点。

辩论领域的本质以及竞技辩论的特点让这类口头内容理解起来十分困难。表达的观点往往分散在多个不连贯的句子中,并且许多论点都不是明确陈述出来,而是拐弯抹角地提及。难上加难的是,系统还需要识别并反驳长达几分钟的发言中最重要的内容。这与目前的对话式代理正好相反,后者只要理解简短输入中的单条功能性命令。辩论录音(Recorded Debating)数据集的目的是在这种充满挑战的环境中,为听力理解算法的开发奠定基础。

发行版 #3 包含有关 200 个争议性主题的 400 条语音,格式如下:

  • 录制的音频(wav 文件)
  • 利用自动语音识别 (ASR) 系统从音频生成的文本(文本文件)
  • 由专业注解员制作的手动校正后的 ASR 文本脚本(文本文件)

ASR 文本和脚本文本均以原始格式提供,同时指定了音频中每次发言的时间,另外还提供“NLP 友好型”纯净版本,其中仅包含所说的词汇。

对于每条语音,录音基础上的附加注解层包括从大型文本语料库中自动挖掘的声明列表。如上所述,在语音中对这些声明进行了显式或隐式注解,或者根本没有注解。

数据集元数据

格式 许可 领域 记录数 大小
WAV
CSV
TXT
CC-BY-SA 3.0 自然语言处理 400 条语音
20 个争议性主题
4,876 个带注解的声明
5.6GB

引用

@article{DBLP:journals/corr/abs-1907-11889,
author = {Tamar Lavee and Matan Orbach and Lili Kotlerman and Yoav Kantor and Shai Gretz and Lena Dankin and Shachar Mirkin and Michal Jacovi and Yonatan Bilu and Ranit Aharonov and Noam Slonim},
title = {Towards Effective Rebuttal: Listening Comprehension using Corpus-Wide Claim Mining},
journal = {CoRR},
volume = {abs/1907.11889},
year = {2019},
url = {http://arxiv.org/abs/1907.11889},
archivePrefix = {arXiv},
eprint = {1907.11889},
timestamp = {Thu, 01 Aug 2019 08:59:33 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1907-11889},
bibsource = {dblp computer science bibliography, https://dblp.org}
}

相关链接

  • Project Debater Project Debater 是首个可围绕复杂主题与人类展开辩论的 AI 系统。目标在于帮助人们摆出有说服力的论据,做出明智的决策。此数据集有助于在 Project Debater 中训练模型。

本文翻译自:IBM Debater® Recorded Debating #3(2019-08-12)