新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

コントラクト・プロポジション・バンク

概要

ConProp バージョン 1.0 は、米国カリフォルニア州サンノゼを拠点とする IBM Almaden Research Center の研究者たちによって開発されました。このデータセットは、IBM が一般公開している契約書から抽出された約 1,000 のコンプライアンス関連の英語のセンテンスに基づく、プロポジション・バンク形式のアノテーションからなります。アノテーションの基となっているセンテンスは契約書のさまざまなセクションから抽出されています。例えば、「ビジネス・パートナーの説明」、「契約条件 / 構造」、「知的財産の保護」、「賠償責任の制限」、「保証条件」、「関係性の一般原則」、「契約終了条件」、「サービス取り消し」、「サード・パーティーの資格」、「料金」、「サービス・レベル契約」などのセクションです。

コンプライアンス・ドメインでのニーズに合わせて、このドメインに固有の 60 個の述語が選択されました。選択されたのは、契約文で使われる場合に固有のコンテキストや動詞の意味を持つコンプライアンス関連のセンテンスで一般的に出現する一方、一般的なドメインではそれほど頻繁に出現しない述語です。どのように選択されたかと言うと、まず、コンプライアンス関連のセンテンスで頻繁に出現する上位 150 個の述語のリストが 2 人の SME (主題専門家) に送られました。リストはそれぞれの SME によってキュレートされ、その 2 つのリストの間で重複する述語を基に、ドメイン固有の 60 個の述語が選択されました。述語候補セクションのプロセスは、[1] の研究から着想を得たものです。

次に、報告書から抽出されたすべてのセンテンスの中から、上記の方法で選択された述語が 1 つ以上含まれる約 1,000 文のセンテンスが選択されました。これらのセンテンスが Fuji [3] パーサーで構文解析された後、一般ドメインと医療ドメインのセンテンスでトレーニングされた意味役割ラベル分類子 [2] を使用してラベル付けされました。続いてコンプライアンス・ドメインの 2 人のパラリーガル SME が、解析木ツリーと初期の意味役割に基づいて、分類子によってセンテンスにラベル付けされた意味役割を修正するか、新しい意味役割を追加しました。

SME は、述語に関してはトークンを述語としてラベル付けし、その意味を選びます。引数に関しては、スパン全体を選択して、解析木に従ってスパンの先頭を意味役割ラベルの引数先頭として選びます。こうして付けられたラベルが 2 人の SME の間で一致していない場合は、3 人目の専門家がラベルを調整しました。これらのラベルによって、このドメインの絶対的標準となる SRL データが確立されています。

このような半自動の意味役割ラベル付けプロセス全体で行われた処理は、次のように要約できます。(a) ドメイン専門家が、このドメインにおいて意味のある述語を選択し、それらの述語が含まれるセンテンスを選択する。(b) 事前トレーニングされた分類子 [2] を使用して、センテンスに自動的に意味役割のラベルを付ける。(c) 2 人の SME が、意味役割ラベルを確認 / 追加 / 削除 / 編集する。(c) 2 人の SME によるエントリーが一致しない場合、3 人目の専門家が調整する。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ
CoNLL-U
CDLA-Sharing 自然言語処理 約 1,000 のアノテーション付きセンテンス
(単語数 50,000 に相当)
2.3MB

サンプル・レコード

#promptly provide IBM with documents IBM may require from you or a Customer ( for example , a license agreement signed by the End User ) when applicable ; and
1  promptly  promptly  _ RB _ 2 advmod _ _ AM-MNR _ _      
2 provide provide _ VBP _ 0 root Y provide.01 _ _ _      
3 IBM ibm _ NNP _ 2 dobj _ _ A0 _ _      
4 with with _ IN _ 5 case _ _ _ _ _      
5 documents document _ NNS _ 2 nmod _ _ A1 A1 _      
6 IBM ibm _ NNP _ 8 nsubj _ _ _ A0 _      
7 may may _ MD _ 8 aux _ _ _ _ _      
8 require require _ VB _ 5 acl:relcl Y require.01 _ _ _      
9 from from _ IN _ 10 case _ _ _ _ _      
10 you you _ PRP _ 8 nmod _ _ _ A2 _      
11 or or _ CC _ 8 cc _ _ _ _ _      
12 a a _ DT _ 13 det _ _ _ _ _      
13 Customer customer _ NN _ 8 conj _ _ _ _ _      
14 ( ( _ ( _ 29 punct _ _ _ _ _      
15 for for _ IN _ 16 case _ _ _ _ _      
16 example example _ NN _ 29 nmod _ _ _ _ _      
17 , , _ , _ 29 punct _ _ _ _ _      
18 a a _ DT _ 20 det _ _ _ _ _      
19 license license _ NN _ 20 compound _ _ _ _ _      
20 agreement agreement _ NN _ 29 nsubj _ _ _ _ A1      
21 signed sign _ VBN _ 20 acl Y sign.01 _ _ _      
22 by by _ IN _ 25 case _ _ _ _ _      
23 the the _ DT _ 25 det _ _ _ _ _      
24 End end _ NN _ 25 compound _ _ _ _ _      
25 User user _ NN _ 21 nmod _ _ _ _ A0      
26 ) ) _ ) _ 20 punct _ _ _ _ _      
27 when when _ WRB _ 28 mark _ _ _ _ _      
28 applicable applicable _ JJ _ 29 amod _ _ _ _ _      
29 ; ; _ : _ 2 punct _ _ _ _ _      
30 and and _ CC _ 29 cc _ _ _ _ _

引用

[1] Wen-Chi  Chou,  Richard  Tzong-Han  Tsai,  Ying-ShanSu,  Wei  Ku,  Ting-Yi  Sung,  and  Wen-Lian  Hsu. (2016). A semi-automatic method for annotating a biomedical proposition bank. In Proceedings of the workshop on frontiers in linguistically annotated corpora 2006. Association for Computational Linguistics, pages 5–12.
[2] Alan  Akbik  and  Yunyao  Li.  (2016).    K-srl:   Instance-based learning for semantic role labeling.   In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. pages 599–608.
[3] Yuta Tsuboi, Hiroshi Kanayama, Katsumasa Yoshikawa, Tetsuya Nasukawa, Akihiro Nakayama, Kei Sugano, John Richardson. (2014). Transfer of dependency parser from rule-based system to learning-based system, Proceedings of 20th Annual Meeting of the Association of Natural Language Processing (in Japanese), 2014.