概要
このコード・パターンでは、データ・サイエンス・パイプラインに期待できることの概要と、この道中で使用できるツールを紹介し、ビジネス上の課題の枠組み作りから、データ・モデルを作成してデプロイするまでのプロセスを説明します。パイプラインを説明する例として、従業員減少問題を取り上げます。
説明
どの組織も従業員によって支えられています。組織の業績は、従業員の質と、従業員をつなぎ留めておけるかに大きく依存します。従業員の減少に伴い、組織は次のような数々の課題に直面します。
- 新しい従業員をトレーニングするためにかかる費用と時間
- 経験を積んだ従業員の減少
- 生産性への影響
- 利益への影響
このコード・パターンでは、このような従業員減少問題への取り組みを支援するためのソリューションを設計します。このコード・パターンを完了すると、以下のことを理解できます。
- データ・サイエンス問題を解決するために必要なプロセス
- Watson Studio インスタンスを作成して使用する方法
- バイアスを軽減するために、AI Fairness 360 (AIF360) ツールキットを使用して元のデータ・セットを変換する方法
- 各種のツールを使用して Watson Studio 内でモデルを作成してデプロイする方法
このコード・パターンで使用するデータ・セットは、Kaggle で提供されている、在職および退職する従業員の HR アナリティクス・データが含まれているものです。データのタイプには、教育レベル、仕事に対する満足度、通勤距離などのメトリックがあります。
このデータには、以下の使用条件が適用されます。
データ・セット・ライセンスの詳細
アセット | ライセンス | ソースへのリンク |
---|---|---|
従業員減少データ – データベース・ライセンス | Open Database License (ODbL) | Kaggle |
従業員減少データ – コンテンツ・ライセンス | Database Content license (DbCL) | Kaggle |
フロー
- IBM Watson Studio インスタンスを作成してログインします。
- Jupyter Notebook をアップロードして実行します。
- Notebook がデータ・セットをダウンロードして、Fairness ツールキット (AIF360) と Pygal データ可視化ライブラリーをインポートします。
- Pandas を使用してデータを読み込み、初期データ探索を行います。
- Matplotlib、Seaborn、Plotly、Bokeh、および (ステップ 3 でインポートした) Pygal を使用してデータを可視化します。
- scikit-learn と (ステップ 3 でインポートした) AIF360 を使用してモデルを開発します。
- IBM Watson Machine Learning の機能を利用してモデルをデプロイし、モデルを使用して従業員減少分類を生成します。
手順
詳細な手順については、README ファイルを参照してください。手順の概要は以下のとおりです。
- Watson Machine Learning サービス・インスタンスを作成します。
- Watson Studio に登録します。
- 新しい Watson Studio プロジェクトを作成します。
- Notebook を作成します。
- Notebook を実行します。
- 結果を保存して共有します。