ビッグデータと R4ML を使用してフライトの遅延を予測する  

R4ML を使用して、ビッグデータの前処置と予備解析を行う

| By Alok Singh

Description

このコード・パターンでは、IBM Watson™ Studio 上で動作する R4ML というスケーラブルな R パッケージを使用して、機械学習の各種の演習を行います。Watson Studio についてよく知らない方のために説明すると、Watson Studio はクラウドをベースとしたインタラクティブなコラボレーション環境です。この環境では、データ・サイエンティスト、開発者、そしてデータ・サイエンスに興味を持つ誰もが、さまざまなツール (RStudio、Jupyter Notebook、Spark など) を使用して共同で作業し、データを共有し、それらのデータから洞察を引き出すことができます。

Overview

サポート・ベクトル・マシン (SVM) を使用した大規模な分類モデルのトレーニングを行う方法、あるいは相互検証によるチューニングを行う方法を把握する必要があるデータ・サイエンティストにとって、このコード・パターンはまさにぴったりです。

ビッグデータの時代を生きる今、私たちは毎日生成される膨大な量のデータを処理しなければなりません。したがって、最大のビジネスの成果を挙げるためにはデータを分析することが重要ですが、従来のデータ・サイエンス・ツールはビッグデータに対応できるだけのスケーラブリティーがありません。そこで作成されたのが、Apache Spark のようなフレームワークです。ビッグデータに対応するという目標達成に向けた手法の 1 つとしては、R4ML もあります。

このパターンでは、SVM の例を通して、スケーラブルな分類を実装する上での R4MT の使いやすさと威力をデモンストレーションします。R4ML には、すぐに試してみることのできる各種のアルゴリズムが揃っています。R4ML を使用したことがない場合、または機能、サポート、ドキュメント、ロードマップを確認するには、関連リンクをご利用ください。

このコード・パターンで使用するデータセットは、RITA の Airline On-Time Statistics と Delay Causes です。データセットの 1 パーセントのサンプルは、米国統計協会 (ASA) から入手できます。データはすべて、パブリック・ドメイン内にあります。ここでは、R4ML に同梱されている上述のデータセットのサブセットを使用しますが、このパターンはそれよりも大きい RITA データセットにでも適用できます。

このコード・パターンを完了すると、以下の方法がわかるようになります。

  • Jupyter Notebook を使用してデータをロード、視覚化、分析する
  • Jupyter Notebook を IBM Watson Studio 内で実行する
  • R4ML を使用して、ビッグデータの前処理と予備解析を行う

Flow

  1. 用意されているノートブックを IBM Watson Studio にロードします。
  2. ノートブックで Apache Spark インスタンスとやり取りします。
  3. サンプルのビッグデータ・データセットを Jupyter Notebook にロードします。
  4. Apache Spark をベースに動作する R4ML を使用して、機械学習を行います。

Instructions

このコード・パターンに取り組む準備はできましたか?アプリケーションを起動して使用する方法について詳しくは、README を参照してください。

Related Blogs

OSC東京 SpringにIBM Developer Advocateが登壇します!

みなさまこんにちは、IBM Developer AdvocateのTaijiです。 明日、2月22日はOSC東京 Springです! 私は14時よりJavaアプリをIKS(IBM Cloud上のK8s)へデプロイする方法の開設をデモ交えながらやらせて頂きます。 こちらの内容は、Code Patternsでも紹介しております。 Spring Boot マイクロサービスを Kubernetes 上にデプロイする ご存じない方も多いのですが、IBM Cloudの多くの部分は、実はオープンソースで構成されているんですよ😎 ご予定お繰り合わせの上、ぜひお越しくださいね🙋‍♂️ https://www.ospn.jp/osc2019-spring/ #osc19tk #TryIBMDev #IBM #IBMDeveloper

続けて読む OSC東京 SpringにIBM Developer Advocateが登壇します!

IBM Developer へようこそ

新しい IBM Developer へようこそ! 私たちはこの新しいプロジェクトに大いに張り切っていますが、まずは皆さんについて、つまり開発者についてお話ししたいと思います。

続けて読む IBM Developer へようこそ

Related Links

ビッグデータを処理できるよう準備して、データ探索を行う

このパターンでは、Watson Studio とスケーラブルな機械学習ツール R4ML を使用して、データセットをロードし、一様サンプリングによってビジュアル・データを探索する方法を説明しています。

R4ML

R4ML は、R、Apache SystemML、Apache Spark を使用したスケーラブルなハイブリッド機械学習/統計手法です。

Watson Studio

プロジェクトをセットアップして環境を構成した後、ノートブック・ファイルを作成するか、コミュニティーで提供しているサンプル・ノートブックをコピーするか、カタログに用意されているノートブックを追加します。

Statistical Computing Statistical Graphics

米国運輸省によってコンパイルされたデータをダウンロードできます。

IBM Cloud 上の Sparks

Spark クラスターが必要ですか?IBM Cloud 上の Spark サービスを利用して、最大 30 個の Spark エグゼキューターを作成できます。