IBM Developer Japan Webサイトは2021年3月15日をもって終了となり、日本語コンテンツの一部は、オープンソースとして、提供予定です。 URLはこちら

データ視覚化を使用してパターン、関係、つながりを特定する

このチュートリアルは 2020 Call for Code Global Challenge を構成するコンテンツです。

このチュートリアルは、全 2 回からなるチュートリアルの第 1 回です。このチュートリアルを完了した後は、第 2 回のチュートリアル「Using plots and charts in data visualization」に取り組んで、データ視覚化でのチャートの使用方法を詳しく学ぶことができます。

データ視覚化を使用すると、データと指標をインタラクティブなチャートやグラフの他、視覚的なレポートに変換できます。また、SQL エディターで関数を使用して構造化データとクエリー・データを表示することもできます。さらに、設定をパーソナライズすると、データ視覚化によってさまざまな観点から情報とデータを表示して分析し、データに関する決定を行い、アプリケーションを作成できます。データ視覚化サービスは IBM Watson Studio ツール全体に拡大されていて、IBM Cloud と IBM Cloud Pak for Data の IBM SPSS Modeler および IBM Data Refinery でもデータ視覚化サービスを利用できるようになっています。

基本構造を示す図 図 1: データ視覚化の基本構造

データを入力するには、設定パネル上のフィールドで推奨されている UI コントロールから直接入力するか、チャート仕様 JSON スクリプトを使用して入力します。チャート仕様プロバイダーにより、すべての入力から有効なチャート仕様が作成されます。データ・ローダーはデータ視覚化バックエンド・サービスからデータをフェッチします。チャート仕様とロードされたデータは Viz Engine の入力として扱われます (明確化が必要)。データ視覚化によりチャート・インスタンスを基に応答イベントが作成され、それらのイベントがブラウザー上に表示されます。

データ視覚化バックエンド・サービスには、ビッグデータを対象としたデータのロード、統計指標の計算、画像の生成を行うための関数が用意されています。

所要時間

このチュートリアルの所要時間は約 60 分です。

手順

ステップ 1: ナビゲーション・メニュー

スタート・ページのスクリーンショット 図 2: スタート・ページ

ツールの左側にあるアイコンの上にカーソルを重ねると、以下に示すナビゲーション・メニューが表示されます。

ナビゲーション・メニューのスクリーンショット 図 3: ナビゲーション・メニュー

チャート

「Chart (チャート)」タブでは、さまざまな観点からデータを探索して、データに含まれるパターン、つながり、関係を特定するための高度なデータ視覚化を作成できます。データ視覚化では、28 種類のチャートを必要に応じて切り替えて使用できます。作業を開始するには、「COLUMNS TO VISUALIZE (可視化する列)」の下矢印をクリックして、作業する列を選択します。推奨されるすべてのチャートは赤いドットで示されます。これらのチャートのいずれかをクリックすると、対応するチャートを直接確認できます。

推奨されるチャートを示す画面のスクリーンショット 図 4: 推奨されるチャート

視覚化を開始するには、選択されているチャートのいずれかをクリックします。「Visualize data (データを視覚化)」ボタンをクリックすると、推奨されるチャートのリスト内の最初のチャートから視覚化が開始されます。利用可能なチャートのタイプは、選択した列に最も関連性の高いものから低いものの順で並べられます。データセット内に、所定のチャート・タイプでサポートされているデータ型の列がなければ、そのチャートは使用できません。列のデータ型が所定のチャートでサポートされていなければ、その列はチャートで選択可能になりません。

散布図タイプのチャートを示す画面のスクリーンショット 図 5: 散布図タイプのチャート

「Multi-series (多系列)」チャートをクリックすると、多系列チャートが表示されます。以下の図は、(スタート・ページ内で) 選択した列が推奨されるチャートのそれぞれで共有されることを示しています。共有される列は、いずれも推奨されるチャートに適用できます。

多系列チャートを示す画面のスクリーンショット 図 6: 多系列チャート

スプレッドシート

「Spreadsheet (スプレッドシート)」タブには、選択したデータが読み取り専用ビューとして表形式で表示されます。「Spreadsheet (スプレッドシート)」パネルを開き、スプレッドシートの下部にある「SQL Editor (SQL エディター)」バーをクリックすると、SQL エディターが開きます。注: キーワード「ThisTable」を使用すると、スプレッドシート内のデータセットを参照できます。データを編集するには、AQI の値を 200 より大きくした SQL「SELECT * FROM ThisTable where AQI>200」を使用します。この SQL を実行するには、SQL エディターの上右隅にあるボタンをクリックする必要があります。

SQL エディターのスクリーンショット 図 7: SQL エディター 1

200 より大きい値を持つ列が表示されます。名前を PM10 – AQI に設定した新しいフィールドを生成するには、SQL SELECT * ,PM10 – AQI FROM ThisTable を使用します。

SQL エディター 2 のスクリーンショット 図 8: SQL エディター 2

最後の列内に PM10 – AQI という名前の新しいフィールドが生成されます。このフィールドの値は、PM10 の値から AQI の値を引いたものです。当然、ユーザーは SQL ステートメントの習熟度に応じてデータをカスタマイズできます。

データ監査

「Data Audit (データ監査)」タブには、各データ列の頻度と統計が示されます。「Data Audit (データ監査)」タブを開くと、さらに 4 つのタブがあります。具体的には、「Audit (監査)」、「Quality (品質)」、「Statistics (統計)」、「Pearson Correlations (ピアソン相関)」です。

監査

「Audit (監査)」タブには、分散グラフと各フィールドの基本的な統計値が示されます。

品質

「Quality 品質」タブには、外れ値、極値、Null 値など、各フィールドの品質が示されます。

統計

「Statistics (統計)」タブでは、すべてのフィールドの統計が分類されます。

ピアソン相関

「Pearson Correlations (ピアソン相関)」タブには、あらゆる 2 つのフィールドの間の関係が示されます。PM2.5 と PM10 の間の相関値は 0.963 です。この相関値は、PM2.5 の値が大きければ、PM10 の値も大きくなることを意味します。WINDSPEED_MEAN と AQI の間の相関値は -0.464 です。したがって、この 2 つは負の相関関係を持ちます。

「Pearson Correlations (ピアソン相関)」タブのスクリーンショット 図 9: データ監査 – ピアソン相関

ダッシュボード

ダッシュボードでは、複数の事前定義されたダッシュボードがサポートされています。 「ACTION (アクション)」ツールバーの項目を使用すると、テンプレートを追加/編集したり、新しいレイアウト・テンプレートを作成したりできます。

ダッシュボードのスクリーンショット 図 10: ダッシュボード

ダッシュボード内に表示されたチャートを示す画像 図 11: ダッシュボード内に表示されたチャート

アクション・ツールバーの項目

レイアウトを編集/レイアウト編集を終了

「Edit the layout/Leave layout edit (レイアウトを編集/レイアウト編集を終了)」モードを使用して、レイアウト編集モードを開始または終了できます。編集モードを開始すると、小さなレイアウト・アイテムが作成されます。レイアウト・アイテムのサイズはアイテムをドラッグして変更できます。

新しいアイテムを追加

「Add new item (新しいアイテムを追加)」を使用して、サイズ 1 * 1 の新しいレイアウト・アイテムを追加できます。右隅をドラッグすることで、レイアウト・アイテムのサイズを調整できます。

保存

「Save (保存)」を使用すると、編集したレイアウトをテンプレートとして保存できます。これにより、現在選択されているテンプレートが上書きされます。注: 事前定義されたテンプレートを上書きすることはできません。

新しいテンプレートとして保存

「Save as a new template (新しいテンプレートとして保存)」を使用して、編集したレイアウトを新しいテンプレートとして保存することもできます。

削除

「Remove (削除)」を使用して、現在選択されているテンプレートを削除できます。注: 事前定義されたテンプレートを削除することはできません。

レイアウト・ユニットの設定を編集

「Edit the layout unit settings (レイアウト・ユニットの設定を編集)」を使用すると、各ユニットの幅と高さを指定するピクセル値を定義できます。

テンプレートを JSON ファイルとしてエクスポート

「Export template as a JSON file (テンプレートを JSON ファイルとしてエクスポート)」を使用して、ダッシュボード内に現在表示されているレイアウトとチャートを JSON ファイルとして保存できます。

ダッシュボード・ファイルをインポート

「Import dashboard file (ダッシュボード・ファイルをインポート)」を使用して、ダッシュボード JSON ファイルからダッシュボードをアップロードできます。

保存済みチャートを選択

「Choose a saved chart (保存済みチャートを選択)」を使用すると、チャート・モジュールに保存されているチャート・リストを表示できます。このリストから、各チャートをダッシュボード・レイアウト・アイテムにドラッグできます。

オブジェクトを選択

「Choose an object (オブジェクトを選択)」を使用すると、すべてのダッシュボード・オブジェクトが表示され、ダッシュボード・レイアウト・アイテムにドラッグできるようになります。ダッシュボード・オブジェクトのタイプには、HTML テキストと画像の 2 種類があります。アイテムの編集ボタンをクリックすることで、そのオブジェクトの内容を編集できます。

チャートの設定

保存済みチャートを選択すると、「Chart settings (チャートの設定)」グリッドが表示され、そこで設定を編集できるようになります。編集した内容に応じてチャートが変更されます。

ダッシュボード内に表示されたチャートの設定を示す画面のスクリーンショット 図 12: ダッシュボード内に表示されたチャートの設定

設定

「Preferences (設定)」タブでは、インターフェースの言語やルック・アンド・フィールなどの設定を構成できます。データ視覚化では 12 か国語がサポートされています (以下の図を参照)。別の言語に変更する必要がある場合は、言語のリストから目的の言語を選択します。これで、インターフェースが選択した言語で表示されるようになります。 データ視覚化には 2 つの UI スキンと 7 つの定義済みテーマが用意されています。

設定を示す画面のスクリーンショット 図 13: 設定

ステップ 2: アクション

データ視覚化 UI の右上隅には、いくつかのツール・アイコンがあります。

アクション・ツールを示す画面のスクリーンショット 図 14: アクション・ツール

スタートに戻る

「Start over (スタートに戻る)」アイコンをクリックすると、現在のチャートからスタート・ページに切り替わります。

チャート内にデータのラベル/値を表示

「Display data label/value in chart (チャート内でデータのラベル/値を表示)」アイコンをクリックすると、現在のチャート内にラベルまたは値が表示されます。

チャートの詳細をダウンロード

「Download chart details (チャートの詳細をダウンロード)」アイコンをクリックすると、現在のチャートを JSON ファイルとしてダウンロードしてコンピューター上に保存できます。

チャートの画像をダウンロード

「Download chart image (チャートの画像をダウンロード)」アイコンをクリックすると、現在のチャートを画像としてダウンロードし、コンピューター上に保存できます。

ダッシュボード・チャートとして保存

「Save as a dashboard chart (ダッシュボード・チャートとして保存)」アイコンをクリックすると、現在のチャートをダッシュボード・チャートとして保存できます。

グローバルな視覚化設定を使用して、チャートのタイトルの設定、範囲スライダー、ツールボックス、またはその他の小さなツールのオン/オフ切り替え、別のテーマへの変更などの操作を行うことができます。 デフォルトのテーマの他に、データ視覚化では 7 種類のバックグラウンド・テーマも選択できます。

ステップ 3: バックエンド集約

大量のデータに対応するために、データ視覚化では「バックエンド集約」機能を使用できるようになっています。この機能を使用すると、すべてのデータを取得するのではなく、集約データを使用してチャートを表示できます。 例えば、以下の集約データを取得するだけで気象データの円グラフを表示できます。

バックエンド集約データを示す画面のスクリーンショット 図 15: バックエンド集約

バックエンド集約を使用した円グラフを示す画面のスクリーンショット 図 16: バックエンド集約を使用した円グラフ

バックエンド集約をサポートできるチャートには、円グラフ、棒グラフ、箱ひげ図、ヒストグラム、バブル・チャート、サークル・パッキング・チャート、エラー・バー付き棒グラフ、ヒートマップ、人口ピラミッド、レーダー、サンバースト・チャート、ThemeRiver、ワード・クラウドが含まれます。

ステップ 4: カスタマイズした仕様

すべてのチャートでは「Download chart details (チャートの詳細をダウンロード)」機能を使用して、現在のチャート仕様を保存できるようになっています。チャート仕様を「Customized (カスタマイズした仕様)」の「JSON script (JSON スクリプト)」プロパティー内に貼り付けて「Generate Chart (チャートを生成)」ボタンをクリックすると、チャートが作成されます。

カスタマイズした仕様を示す画面のスクリーンショット 図 17: カスタマイズした仕様

仕様のプロパティーは、そのプロパティーに想定される値に変更できます。指定したプロパティーまたは値が有効でないと、空白のページにエラー・メッセージが表示されます。例えば、箱ひげ図の仕様に含まれる「seriesFields」プロパティー内に無効な列名を設定すると、以下の図に示す「Invalid column (無効な列)」というエラー。メッセージが表示されます。

エラー・メッセージを示す画面のスクリーンショット 図 18: カスタマイズした仕様で示されるエラー・メッセージ

まとめ

このチュートリアルではデータ視覚化を取り上げ、各コンポーネントの基本的な操作について説明しました。また、チャートの共通概念とメカニズムについても説明しました。データ視覚化でのチャートの使用方法を詳しく学ぶには、次のチュートリアル「Using plots and charts in data visualization」を確認してください。