ビッグデータと R4ML を使用してフライトの遅延を予測する  

R4ML を使用して、ビッグデータの前処置と予備解析を行う

| By Alok Singh

Description

このコード・パターンでは、IBM Watson™ Studio 上で動作する R4ML というスケーラブルな R パッケージを使用して、機械学習の各種の演習を行います。Watson Studio についてよく知らない方のために説明すると、Watson Studio はクラウドをベースとしたインタラクティブなコラボレーション環境です。この環境では、データ・サイエンティスト、開発者、そしてデータ・サイエンスに興味を持つ誰もが、さまざまなツール (RStudio、Jupyter Notebook、Spark など) を使用して共同で作業し、データを共有し、それらのデータから洞察を引き出すことができます。

Overview

サポート・ベクトル・マシン (SVM) を使用した大規模な分類モデルのトレーニングを行う方法、あるいは相互検証によるチューニングを行う方法を把握する必要があるデータ・サイエンティストにとって、このコード・パターンはまさにぴったりです。

ビッグデータの時代を生きる今、私たちは毎日生成される膨大な量のデータを処理しなければなりません。したがって、最大のビジネスの成果を挙げるためにはデータを分析することが重要ですが、従来のデータ・サイエンス・ツールはビッグデータに対応できるだけのスケーラブリティーがありません。そこで作成されたのが、Apache Spark のようなフレームワークです。ビッグデータに対応するという目標達成に向けた手法の 1 つとしては、R4ML もあります。

このパターンでは、SVM の例を通して、スケーラブルな分類を実装する上での R4MT の使いやすさと威力をデモンストレーションします。R4ML には、すぐに試してみることのできる各種のアルゴリズムが揃っています。R4ML を使用したことがない場合、または機能、サポート、ドキュメント、ロードマップを確認するには、関連リンクをご利用ください。

このコード・パターンで使用するデータセットは、RITA の Airline On-Time Statistics と Delay Causes です。データセットの 1 パーセントのサンプルは、米国統計協会 (ASA) から入手できます。データはすべて、パブリック・ドメイン内にあります。ここでは、R4ML に同梱されている上述のデータセットのサブセットを使用しますが、このパターンはそれよりも大きい RITA データセットにでも適用できます。

このコード・パターンを完了すると、以下の方法がわかるようになります。

  • Jupyter Notebook を使用してデータをロード、視覚化、分析する
  • Jupyter Notebook を IBM Watson Studio 内で実行する
  • R4ML を使用して、ビッグデータの前処理と予備解析を行う

Flow

  1. 用意されているノートブックを IBM Watson Studio にロードします。
  2. ノートブックで Apache Spark インスタンスとやり取りします。
  3. サンプルのビッグデータ・データセットを Jupyter Notebook にロードします。
  4. Apache Spark をベースに動作する R4ML を使用して、機械学習を行います。

Instructions

このコード・パターンに取り組む準備はできましたか?アプリケーションを起動して使用する方法について詳しくは、README を参照してください。

Related Blogs

Call for Code 準優勝者: AI を使用して改造の可能性を判断する PD3R

ネパールでエンジニアとして働く Nirmal Adhikari は、地震がもたらす惨状をじかに目にしました。彼 […]

続けて読む Call for Code 準優勝者: AI を使用して改造の可能性を判断する PD3R

Call for Code 優勝者: 緊急支援ネットワークで中断のない銀行サービスを実現

史上最大の地震の 1 つとして数えられる 2008 年の四川大地震が発生したとき、中国農業銀行 (ABC) は […]

続けて読む Call for Code 優勝者: 緊急支援ネットワークで中断のない銀行サービスを実現

Related Links

ビッグデータを処理できるよう準備して、データ探索を行う

このパターンでは、Watson Studio とスケーラブルな機械学習ツール R4ML を使用して、データセットをロードし、一様サンプリングによってビジュアル・データを探索する方法を説明しています。

R4ML

R4ML は、R、Apache SystemML、Apache Spark を使用したスケーラブルなハイブリッド機械学習/統計手法です。

Watson Studio

プロジェクトをセットアップして環境を構成した後、ノートブック・ファイルを作成するか、コミュニティーで提供しているサンプル・ノートブックをコピーするか、カタログに用意されているノートブックを追加します。

Statistical Computing Statistical Graphics

米国運輸省によってコンパイルされたデータをダウンロードできます。

IBM Cloud 上の Sparks

Spark クラスターが必要ですか?IBM Cloud 上の Spark サービスを利用して、最大 30 個の Spark エグゼキューターを作成できます。