新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

ファイナンス・プロポジション・バンク

概要

FinProp 1.0 は、米国カリフォルニア州サンノゼを拠点とする IBM Almaden Research Center の研究者たちによって開発されました。このデータセットは、IBM が一般公開している財務報告書から抽出された約 1,000 の財務関連の英語のセンテンスに基づく、プロポジション・バンク形式のアノテーションからなります。これらのセンテンスは財務報告書のさまざまなセクションから抽出されています。たとえば、「財政状態および経営成績に関する経営者による説明と分析」、「市場リスクについての質的・量的情報の開示」などのセクションです。

財務ドメインでのニーズに合わせて、このドメインに固有の約 40 個の述語が選択されました。選択されたのは、財務で使われる場合に固有のコンテキストや動詞の意味を持つ財務関連のセンテンスで一般的に出現する一方、一般的なドメインではそれほど頻繁に出現しない述語です。どのように選択されたかと言うと、まず、財務関連のセンテンスで頻繁に出現する 150 個の述語のリストが 2 人の SME (主題専門家) に送られました。リストはそれぞれの SME によってキュレートされ、その 2 つのリストの間で重複する述語を基に、ドメイン固有の 40 個の述語が選択されました。述語候補セクションのプロセスは、[1] の研究から着想を得たものです。

次に、報告書から抽出されたすべてのセンテンスの中から、上記の方法で選択された述語が含まれる約 1,000 文のセンテンスが選択されました。これらのセンテンスが Fuji [3] パーサーで構文解析された後、一般ドメインと医療ドメインのセンテンスでトレーニングされた意味役割ラベル分類子 [2] を使用してラベル付けされました。続いて財務ドメインの 2 人の SME が、解析木ツリーと初期の意味役割に基づいて、分類子によってセンテンスにラベル付けされた意味役割を修正するか、新しい意味役割を追加しました。

SME は、述語に関してはトークンを述語としてラベル付けし、その意味を選びます。引数に関しては、スパン全体を選択して、解析木に従ってスパンの先頭を意味役割ラベルの引数先頭として選びます。こうして付けられたラベルが 2 人の SME の間で一致していない場合は、3 人目の専門家がラベルを調整しました。これらのラベルによって、このドメインの絶対的標準となる SRL データが確立されています。

このような半自動の意味役割ラベル付けプロセス全体で行われた処理は、次のように要約できます。

  1. ドメイン専門家が、このドメインにおいて意味のある述語を選択し、それらの述語が含まれるセンテンスを選択する
  2. 事前トレーニングされた分類子 [2] を使用して、センテンスに自動的に意味役割のラベルを付ける
  3. 2 人の SME が、意味役割ラベルを確認 / 追加 / 削除 / 編集する
  4. 2 人の SME によるエントリーが一致しない場合、3 人目の専門家が調整する

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ
CoNLL-U
CDLA-Sharing 自然言語処理 約 1,000 のアノテーション付きセンテンス
(単語数 50,000 に相当)
2.9 MB

サンプル・レコード

#Reflected in those amounts were residential real estate loans held for sale , which averaged $ 415 million in 2015 and $ 403 million in 2014 .
1        Reflected        reflect        _        VBN        _        0        root        Y        reflect.01        _        _        _        _                    
2        in        in        _        IN        _        4        case        _        _        _        _        _        _                    
3        those        that        _        DT        _        4        det        _        _        _        _        _        _                    
4        amounts        amount        _        NNS        _        1        nmod        _        _        _        _        _        _                    
5        were        be        _        VBD        _        6        cop        Y        be.01        _        _        _        _                    
6        residential        residential        _        JJ        _        9        amod        _        _        _        _        _        _                    
7        real        real        _        JJ        _        9        amod        _        _        _        _        _        _                    
8        estate        estate        _        NN        _        9        compound        _        _        _        _        _        _                    
9        loans        loan        _        NNS        _        4        acl:relcl        _        _        _        _        A1        _                    
10        held        hold        _        VBN        _        9        acl        Y        hold.01        _        A2        _        _                    
11        for        for        _        IN        _        12        case        _        _        _        _        _        _                    
12        sale        sale        _        NN        _        10        nmod        _        _        _        _        AM-TMP        A1                    
13        ,        ,        _        ,        _        12        punct        _        _        _        _        _        _                    
14        which        which        _        WDT        _        15        nsubj        _        _        _        _        _        R-A1                    
15        averaged        average        _        VBD        _        12        acl:relcl        Y        average.01        _        _        _        _                    
16        $        $        _        $        _        15        dobj        _        _        _        _        _        A2                    
17        415        415        _        CD        _        18        compound        _        _        _        _        _        _                    
18        million        million        _        QT        _        16        nummod        _        _        _        _        _        _                    
19        in        in        _        IN        _        20        case        _        _        _        _        _        _                    
20        2015        2015        _        CD        _        15        nmod        _        _        _        _        _        AM-TMP                    
21        and        and        _        CC        _        15        cc        _        _        _        _        _        _                    
22        $        $        _        $        _        15        conj        _        _        _        _        _        _                    
23        403        403        _        CD        _        24        compound        _        _        _        _        _        _                    
24        million        million        _        QT        _        22        nummod        _        _        _        _        _        _                    
25        in        in        _        IN        _        26        case        _        _        _        _        _        _                    
26        2014        2014        _        CD        _        22        nmod        _        _        _        _        _        _                    
27        .        .        _        .        _        1        punct        _        _        _        _        _        _

引用

[1] Wen-Chi  Chou,  Richard  Tzong-Han  Tsai,  Ying-ShanSu,  Wei  Ku,  Ting-Yi  Sung,  and  Wen-Lian  Hsu. 2006.   A  semi-automatic  method  for  annotating a biomedical  proposition  bank. In Proceedings of the workshop on frontiers in linguistically annotated corpora 2006. Association for Computational Linguistics, pages 5–12.
[2] Alan  Akbik  and  Yunyao  Li.  2016.    K-srl:   Instance-based learning for semantic role labeling.   In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. pages 599–608.
[3] Yuta Tsuboi, Hiroshi Kanayama, Katsumasa Yoshikawa, Tetsuya Nasukawa, Akihiro Nakayama, Kei Sugano, John Richardson. 2014. Transfer of dependency parser from rule-based system to learning-based system, Proceedings of 20th Annual Meeting of the Association of Natural Language Processing (in Japanese), 2014.