新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

従業員減少問題を解決する、データ・サイエンスの処理パイプライン

概要

このコード・パターンでは、データ・サイエンス・パイプラインに期待できることの概要と、この道中で使用できるツールを紹介し、ビジネス上の課題の枠組み作りから、データ・モデルを作成してデプロイするまでのプロセスを説明します。パイプラインを説明する例として、従業員減少問題を取り上げます。

説明

どの組織も従業員によって支えられています。組織の業績は、従業員の質と、従業員をつなぎ留めておけるかに大きく依存します。従業員の減少に伴い、組織は次のような数々の課題に直面します。

  1. 新しい従業員をトレーニングするためにかかる費用と時間
  2. 経験を積んだ従業員の減少
  3. 生産性への影響
  4. 利益への影響

このコード・パターンでは、このような従業員減少問題への取り組みを支援するためのソリューションを設計します。このコード・パターンを完了すると、以下のことを理解できます。

  • データ・サイエンス問題を解決するために必要なプロセス
  • Watson Studio インスタンスを作成して使用する方法
  • バイアスを軽減するために、AI Fairness 360 (AIF360) ツールキットを使用して元のデータ・セットを変換する方法
  • 各種のツールを使用して Watson Studio 内でモデルを作成してデプロイする方法

このコード・パターンで使用するデータ・セットは、Kaggle で提供されている、在職および退職する従業員の HR アナリティクス・データが含まれているものです。データのタイプには、教育レベル、仕事に対する満足度、通勤距離などのメトリックがあります。

このデータには、以下の使用条件が適用されます。

データ・セット・ライセンスの詳細

フロー

フロー

  1. IBM Watson Studio インスタンスを作成してログインします。
  2. Jupyter Notebook をアップロードして実行します。
  3. Notebook がデータ・セットをダウンロードして、Fairness ツールキット (AIF360) と Pygal データ可視化ライブラリーをインポートします。
  4. Pandas を使用してデータを読み込み、初期データ探索を行います。
  5. Matplotlib、Seaborn、Plotly、Bokeh、および (ステップ 3 でインポートした) Pygal を使用してデータを可視化します。
  6. scikit-learn と (ステップ 3 でインポートした) AIF360 を使用してモデルを開発します。
  7. IBM Watson Machine Learning の機能を利用してモデルをデプロイし、モデルを使用して従業員減少分類を生成します。

手順

詳細な手順については、README ファイルを参照してください。手順の概要は以下のとおりです。

  1. Watson Machine Learning サービス・インスタンスを作成します。
  2. Watson Studio に登録します。
  3. 新しい Watson Studio プロジェクトを作成します。
  4. Notebook を作成します。
  5. Notebook を実行します。
  6. 結果を保存して共有します。