単語埋め込みジェネレーター

概要

通常、機械学習アルゴリズムは数値の入力を期待します。そのため、テキストを使用して機械学習モデルを作成する場合、データ・サイエンティストはまず、テキストを数値のベクトルとして表現する方法を見つけなければなりません。このようなベクトルは単語埋め込みと呼ばれます。Swivel アルゴリズムは頻度に基づく単語埋め込みであり、同時出現マトリックスを使用します。ここでの概念は、同様の意味を持つ単語はテキスト・コーパス内で同時に出現する傾向があるというものです。そのため、同様の意味を持つ単語どうしのベクトル表現は、関連性のない単語どうしのベクトル表現と比べ、類似性が高くなります。

このモデルにより、事前処理された Wikipedia テキスト・コーパスでの Swivel アルゴリズムのトレーニングが可能になります。独自のテキスト・コーパスに対する単語埋め込みを生成する方法については、TensorFlow モデル・リポジトリー内に保管されている手順を参照してください。

モデルのメタデータ

ドメイン アプリケーション 業種 フレームワーク トレーニング・データ 入力データの形式
自然言語 単語埋め込み 一般 TensorFlow 任意のテキスト・コーパス 単語

参考資料

ライセンス

コンポーネント ライセンス リンク
モデルの GitHub リポジトリー Apache 2.0 LICENSE
モデルのコード (サード・パーティー) Apache 2.0 TensorFlow モデル
データ CC BY-SA 3.0 Wikipedia のテキスト・ダンプ

このモデルのトレーニング方法

  • IBM Cloud 上の Watson Machine Learning を利用してトレーニングする場合: GitHub 上のモデルの README に記載されている手順に従います。