概述
合同命题库(Contracts Proposition Bank)- ConProp V1.0 是由位于美国加利福尼亚州圣何塞的 IBM Almaden 研究中心的研究人员开发的。它包含命题库风格的注解,这些注解来自从 IBM 公开合同中获得的大约 1000 个英文合规语句。这些语句摘自合同部分,例如业务合作伙伴说明、协议条款/结构、知识产权保护、责任限制、保修条款、一般关系原则、协议终止条款、服务撤销、第三方索赔、收费、服务级别协议等等。
为了满足合规领域的需求,选择了特定于该领域的 60 个谓词。这些谓词通常出现在合规语句中,具有特定于合同用法的上下文/动词含义,而在一般领域却很少出现。将包含来自合规语句的前 150 个频繁出现谓词的列表发送给两名主题专家,通过他们所整理列表之间的重叠部分来选择这 60 个特定领域的谓词。[1] 中的工作为候选谓词部分的处理提供了灵感。
从财务报告中提取的所有语句中选择了大约 1000 个带有其中一个或多个谓词的语句。然后,使用 Fuji [3] 解析器解析这些选定的语句,并使用在一般领域和医学领域的语句上训练过的语义角色标注分类器 [2] 对这些语句加以标注。接着,以解析树结构和初始语义角色为基础,纠正这些语义角色,或者由合规领域的两名律师助理主题专家添加新的语义角色。
对于谓词,标记被标注为谓词,并由主题专家选择其含义。对于自变量,主题专家选择整个跨度,并根据语法分析树选择跨度的头作为语义角色标签的自变量头。如果两名主题专家提供的标签不匹配,那么由第三名专家进行调和。这些标签为该领域提供了黄金标准 SRL 数据。
因此,整个语义角色标注过程是半自动的,它包括以下操作:(a) 由领域专家选择对该领域十分重要的谓词,然后选择包含这些谓词的语句;(b) 使用预先训练的分类器 [2] 自动对这些语句进行语义角色标注;(c) 让 2 名主题专家验证/添加/移除/编辑这些语义角色标签,以及 (c) 如果上述 2 名主题专家输入的内容不匹配,则由第三名专家进行调和。
数据集元数据
格式 | 许可 | 领域 | 记录数 | 大小 |
---|---|---|---|---|
CoNLL-U |
CDLA-Sharing | 自然语言处理 | 大约 1,000 个已注解的语句 与 50,000 个字词对应 |
2.3MB |
记录示例
#promptly provide IBM with documents IBM may require from you or a Customer ( for example , a license agreement signed by the End User ) when applicable ; and
1 promptly promptly _ RB _ 2 advmod _ _ AM-MNR _ _
2 provide provide _ VBP _ 0 root Y provide.01 _ _ _
3 IBM ibm _ NNP _ 2 dobj _ _ A0 _ _
4 with with _ IN _ 5 case _ _ _ _ _
5 documents document _ NNS _ 2 nmod _ _ A1 A1 _
6 IBM ibm _ NNP _ 8 nsubj _ _ _ A0 _
7 may may _ MD _ 8 aux _ _ _ _ _
8 require require _ VB _ 5 acl:relcl Y require.01 _ _ _
9 from from _ IN _ 10 case _ _ _ _ _
10 you you _ PRP _ 8 nmod _ _ _ A2 _
11 or or _ CC _ 8 cc _ _ _ _ _
12 a a _ DT _ 13 det _ _ _ _ _
13 Customer customer _ NN _ 8 conj _ _ _ _ _
14 ( ( _ ( _ 29 punct _ _ _ _ _
15 for for _ IN _ 16 case _ _ _ _ _
16 example example _ NN _ 29 nmod _ _ _ _ _
17 , , _ , _ 29 punct _ _ _ _ _
18 a a _ DT _ 20 det _ _ _ _ _
19 license license _ NN _ 20 compound _ _ _ _ _
20 agreement agreement _ NN _ 29 nsubj _ _ _ _ A1
21 signed sign _ VBN _ 20 acl Y sign.01 _ _ _
22 by by _ IN _ 25 case _ _ _ _ _
23 the the _ DT _ 25 det _ _ _ _ _
24 End end _ NN _ 25 compound _ _ _ _ _
25 User user _ NN _ 21 nmod _ _ _ _ A0
26 ) ) _ ) _ 20 punct _ _ _ _ _
27 when when _ WRB _ 28 mark _ _ _ _ _
28 applicable applicable _ JJ _ 29 amod _ _ _ _ _
29 ; ; _ : _ 2 punct _ _ _ _ _
30 and and _ CC _ 29 cc _ _ _ _ _
引用
[1] Wen-Chi Chou, Richard Tzong-Han Tsai, Ying-ShanSu, Wei Ku, Ting-Yi Sung, and Wen-Lian Hsu.(2016).A semi-automatic method for annotating a biomedical proposition bank.In Proceedings of the workshop on frontiers in linguistically annotated corpora 2006.Association for Computational Linguistics, pages 5–12.
[2] Alan Akbik and Yunyao Li. (2016). K-srl: Instance-based learning for semantic role labeling. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. pages 599–608.
[3] Yuta Tsuboi, Hiroshi Kanayama, Katsumasa Yoshikawa, Tetsuya Nasukawa, Akihiro Nakayama, Kei Sugano, John Richardson.(2014).Transfer of dependency parser from rule-based system to learning-based system, Proceedings of 20th Annual Meeting of the Association of Natural Language Processing (in Japanese), 2014.
本文翻译自:Contracts Proposition Bank(2019-09-12)