概述
注意:此数据集托管在第三方网站上,而不是在 Data Asset Exchange 上。单击上方的“获取此数据集”链接将转至 physionet.org。
MedNLI 数据集包含医疗信息,用户需要完成一个培训课程才能访问此数据集。
自然语言推理 (NLI) 是理解自然语言的重要任务之一。NLI 的目标是确定是否可以通过给定的前提推断出给定的假设。近年来,NLI 系统取得了长足的进步,自 Stanford Natural Language Inference (SNLI)(Bowman 等人,2015 年)和 Multi-NLI(Nangia 等人,2017 年)等数据集发布以来,NLI 系统越来越受欢迎。
我们引入了 MedNLI,这是一个由医生注解的数据集,以患者病史为基础执行自然语言推理任务。我们提出了以下策略:1) 使用开放领域的数据集(例如 SNLI)来利用迁移学习;2) 结合来自外部数据和词汇(例如医学术语)的专业知识。结果表明,使用这两种策略后性能得到了提升。
数据集元数据
格式 | 许可 | 领域 | 记录数 | 大小 |
---|---|---|---|---|
JSON Lines |
特殊访问 | 医疗 | 训练(11,232 对) 开发(1,395 对) 测试(1,422 对) |
14 MB |
相关链接
- MedNLI 网站 提供了有关 MedNLI 的更多信息
本文翻译自:MedNLI(2019-09-17)