新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

Spark と PixieDust を使用して Jupyter Notebook 内で購買履歴データを分析する

概要

Jupyter Notebook は、多くのデータ・サイエンティストがデータの収集とクレンジング、データの視覚化、機械学習モデルの作成とテスト、さらには対話の作成を目的に使用しているツールです。こうした目的のためによく使われている理由は、Jupyter Notebook ではテキスト、コード、図、表を組み合わせることができて、コードの構造を簡単に維持できるためです。このコード・パターンでは、Jupyter Notebook を IBM Watson Studio 内で使用して、Apache Spark と PixieDust というオープンソースの Python パッケージによって迅速に購買履歴データを分析し、グラフと地図を生成する方法を紹介します。

説明

購買データを分析すると、顧客と商品に関する大量の情報を入手できます。こうした情報の中に、顧客が求めている商品の詳細を知る手掛かりがあるわけですが、多くの場合、必要なデータをまとめて抽出して分析するのは簡単なことではありません。このコード・パターンでは、スプレッドシートに頼ってデータを分析するのではなく、Apache Spark と PixieDust というオープンソースの Python パッケージを使用して、Jupyter Notebook 内で過去のショッピング・データを分析する方法を説明します。

Python を使用してデータを視覚化するには数多くのパッケージを利用できますが、初心者にとって、データの視覚化はあまりにも複雑で手に負えないタスクになるかもしれません。けれども PixieDust を使用すれば、比較的簡単な方法でデータを探索することができます。また、PixieDust では matplotlib、bokeh、seaborn、Brunel などの視覚化パッケージを使用してグラフを作成できます。PixieDust について詳しく調べるには、このコード・パターンに従って、Spark と PixieDust を使用して購買履歴データを分析してみることができます。このコード・パターンでは、データをロードしてクレンジングした後、各種のグラフと地図を作成するという方法でデータを分析します。分析に使用する Jupyter Notebook は、IBM Watson Studio 内で実行します。

このコード・パターンをひと通り完了すると、以下の方法がわかるようになります。

  • Jupyter Notebook を IBM Watson Studio 内で使用する
  • PixieDust を使用してデータをロードし、Spark を使用してデータをクレンジングする
  • PixieDust を使用してグラフと地図を作成する

フロー

フロー

  1. Watson Studio にログインします。
  2. 用意されているノートブックを Watson Studio にロードします。
  3. 顧客データをノートブックにロードします。
  4. Apache Spark を使用してデータを変換します。
  5. PixieDust を使用してグラフと地図を作成します。

手順

詳細な手順については、README を参照してください。手順の概要は以下のとおりです。

  1. Watson Studio にサインアップします。
  2. プロジェクトを作成します。
  3. ノートブックを作成します。
  4. 顧客データを Jupyter Notebook にロードします。
  5. Apache Spark を使用してデータを変換します。
  6. PixieDust を使用してグラフと地図を作成します。