概要
自然言語処理によって、コンピューターは人間の言語を理解し、意味を見い出し、分析できるようになります。この自然言語処理の一環となっているのが、自動テキスト要約です。テキストが要約されていれば、読む時間が短縮され、選択プロセスが容易になるとともに、インデックスの有効性が高くなります。また、人間がテキストを要約する場合と比べ、テキスト要約アルゴリズムを使うとバイアスが掛かりにくくなります。質疑応答システムではパーソナライズした情報を提供するため、パーソナライズしたテキスト要約は役に立ちます。商用の抽象サービスに自動または準自動要約システムを取り込むと、処理可能なテキストの数を増やすことができます。
説明
このパターンでは、IBM Watson Studio を使用してテキストの要約と視覚化に対処する場合の方法論を説明します。テキスト要約とは、ドキュメントを短くまとめてわかりやすくしたバージョンを作成するプロセスを意味します。テキストを要約する方法としては、抽出型要約と抽象型要約の 2 つがあります。このパターンで取り上げる抽出型要約には、ソース・ドキュメントからフレーズとセンテンスを選択して、テキストの要約を作り上げるプロセスが伴います。ソース・ドキュメントの内容と特に関連性が高いフレーズを選択するには、フレーズの関連性にランクを付ける手法が必要になります。このパターンでは、ドキュメントの内容をすぐに把握できるよう、データを視覚化する手法もいくつかデモンストレーションします。
このコード・パターンを完了すると、以下の方法がわかるようになります。
- ドキュメントとニュース・フィードに含まれるテキストを要約する
- 重要なトピックを抽出するために、テキストに基づくトピック・モデル化を作成する
- データに関する理解を深めるための視覚化を作成する
- データの要約と視覚化を解釈する
- テキストを分析し、その後の処理でレコメンデーションや情報に基づく決定を行えるようにする
フロー
- Watson Studio にログインして、オブジェクト・ストレージを組み込んだインスタンスを作成します。
- データ・ファイルをオブジェクト・ストレージにアップロードします。
- URL から Jupyter Notebook をインポートします。
- ノートブック内で処理手法を実行して、トピックの統計モデルを作成します。
- ノートブック内で視覚化を探索し、出力をオブジェクト・ストレージにエクスポートします。
手順
詳細な手順については、README ファイルを参照してください。手順の概要は以下のとおりです。
- IBM Cloud でアカウントを作成します。
- 新しい Watson Studio プロジェクトを作成します。
- ノートブックを作成します。
- データを追加します。
- 資格情報を挿入します。
- ノートブックを実行します。
- 結果を分析します。