新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

MedNLI

概要

注: このデータセットは、Data Asset Exchange ではなくサード・パーティーのサイト上でホストされています。上の「このデータセットを入手する」リンクをクリックすると、physionet.org にリダイレクトされます。

このデータセットには医療情報が含まれています。このデータセットを使用するには、その前にトレーニング・コースを受講する必要があります。

自然言語推論 (NLI) は、自然言語を理解する上で不可欠となるタスクの 1 つです。NLI の目的は、所定の前提から特定の仮説を推論できるかどうかを判別することにあります。この数年の間に NLI システムは飛躍的に進歩しました。さらに、最近では Stanford Natural Language Inference (SNLI) (Bowman 他により、2015 年に作成) や Multi-NLI (Nangia 他により、2017 年に作成) などのデータセットがリリースされたことから、NLI システムの普及が進んでいます。

ここで紹介する MedNLI は、患者の医療履歴に基づき作成され、医師によりアノテーションが付けられた、自然言語推論タスクを実行するためのデータセットです。私たちが自然言語推論タスクを実行する際の戦略として提示するのは、1) オープン・ドメインからのデータセット (SNLI など) を使用して転移学習を利用すること、2) 外部のデータおよび語彙のソース (医療用語など) からのドメイン知識を統合することです。この両方の戦略に従った結果、明かにパフォーマンスの向上が見られました。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ
JSON Lines
特殊なアクセス 医療 11,232 (トレーニング用ペア )
1,395 (開発用ペア)
1,422 (テスト用ペア)
14 MB

関連リンク