开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

MedNLI

概述

注意:此数据集托管在第三方网站上,而不是在 Data Asset Exchange 上。单击上方的“获取此数据集”链接将转至 physionet.org。

MedNLI 数据集包含医疗信息,用户需要完成一个培训课程才能访问此数据集。

自然语言推理 (NLI) 是理解自然语言的重要任务之一。NLI 的目标是确定是否可以通过给定的前提推断出给定的假设。近年来,NLI 系统取得了长足的进步,自 Stanford Natural Language Inference (SNLI)(Bowman 等人,2015 年)和 Multi-NLI(Nangia 等人,2017 年)等数据集发布以来,NLI 系统越来越受欢迎。

我们引入了 MedNLI,这是一个由医生注解的数据集,以患者病史为基础执行自然语言推理任务。我们提出了以下策略:1) 使用开放领域的数据集(例如 SNLI)来利用迁移学习;2) 结合来自外部数据和词汇(例如医学术语)的专业知识。结果表明,使用这两种策略后性能得到了提升。

数据集元数据

格式 许可 领域 记录数 大小
JSON Lines
特殊访问 医疗 训练(11,232 对)
开发(1,395 对)
测试(1,422 对)
14 MB

相关链接

本文翻译自:MedNLI(2019-09-17)