新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

AutoAI: 人とマシンのより良い関係

AutoAI の動機付け

ロボットの画像

近年、企業の成功に不可欠となっているのは、データ駆動型の意思決定です。データ駆動型の手法にテクノロジーを適用すると、生産と製造の最適化、顧客離れの低減、データ冗長性の削減、収益性の向上、競争優位性の実現を含め、数々のメリットがあります。このことから、データ駆動型の意思決定手法を採用する組織の間でデータ・サイエンスが普及するようになっています。けれどもデータ・サイエンスを導入するには、数学と統計、機械学習と人工知能 (AI)、データベースとクラウド・コンピューティング、データ視覚化を含め、幅広いスキルを持ったデータ・サイエンティストが必要になります。こうしたスキルに加え、銀行取引、ヘルスケア、人事、製造、通信などの分野固有の職務を遂行して意思決定を行うのに十分な知識を併せ持つデータ・サイエンティストを十分な数だけ雇用するのは簡単なことではありません。さらに、従業員が職務を遂行するための十分なコーディング・スキルを持たない場合を含め、多くの職務にはデータ・サイエンス手法についての知識が求められるという点で、データ・サイエンスは一種の特殊技能になってきています。

コンピューター・サイエンスの図

このような状況の中、データ・サイエンティストの作業効率を高めるための新しいツールの開発と並行して、データ・サイエンス・ワークフロー内のタスクを自動化するソフトウェアを作成することを焦点とした新たな技術開発が行われるようになってきました。こうした開発によって生まれたのが、Google の AutoML、H2O、DataRobot や、Auto-sklearn、TPOT などのオープンソース・ライブラリーです。これらのシステムの多くは scikit-learn という Python 機械学習ライブラリーをベースに構築されています。AI テクノロジーを使用して AI ソリューションを作成しているという点で、これらのシステムは AI for AI (AI 活用のための AI) の例です。IBM® は最先端の AI for AI テクノロジーを開発し、AutoAI という形で製品ポートフォリオに統合しています。

AutoAI の概要

AutoAI はハイブリッド・マルチクラウド環境全体で使用およびスケーリングするように IBM Cloud Pak for Data に標準装備されています。AutoAI によって、データの準備、モデル開発、特徴量エンジニアリング、ハイパーパラメーター最適化が自動化されます。AutoAI の AI ライフサイクル管理は、AI 開発プロセスを開始して質問すべき内容を探る際に大いに役立つだけでなく、質問が決まった後は、さまざまな実験、モデルの変更内容のデプロイ、ガバナンスの各ステップをサポートします。AutoAI は、Cloud Pak for Data がなくても、IBM Watson™ Studio から利用することができます。

AutoAI の概要

AutoAI は AI for AI の画期的な例です。AutoAI ツールは自動的にデータを分析し、予測モデルを作成する対象の問題に合わせてカスタマイズされた複数のモデル・パイプライン候補を生成します。これらのモデル・パイプラインは、AutoAI アルゴリズムが徐々にデータセットの理解を深め、問題に対して有効に機能するデータ変換、推定器アルゴリズム、パラメーター設定を発見する中で生成されていきます。モデルによる予測結果はリーダーボード上に表示され、さらに実験を進めるよう促すために、問題の最適化目標に応じてランク付けされた自動生成モデル・パイプラインが示されます。

より良い関係: AutoAI によって質問を改善

多くの場合、データ・サイエンスの目的は、より良い質問をすることに尽きます。この目的を達成するために、例えば実験によって結果の予測子に最適な属性を識別します。つまり、さまざまなモデルを作成し、さまざまな特徴を選択し、さまざまなハイパーパラメーター最適化を適用するということです。より良い質問を探索できるよう、AutoAI では AI プロセスを加速させることも、人間が関与することもできるようになっています。

AutoAI プロセス全体は、人間の介入なしで (データの量とその他の考慮事項に応じて) 数分で自動的に完了できます。この自動プロセスによって基本的なソリューションが作成されるため初心者に適しています。その一方で、生成されるモデルを改善する目的、またはローカルの要件に合わせてカスタマイズする目的で、領域専門家が AutoAI を操作して、その専門知識を簡単に自動パイプラインに取り込むこともできます。

領域専門家がその専門知識を自動 AutoAI プロセス内に取り込むために、手作業で独自の設定を指定するのに最適なポイントとしては、以下の例が挙げられます。

  • データの準備 – データをトレーニング用とテスト用のサブセットに分割し、欠落している値を補充する
  • 高度なデータ精製 – リソースと時間を節約するためにデータのサブセットを指定し、複数のデータソースを結合する
  • 特徴量エンジニアリング – 特定の既製の特徴変換を適用し、複数の特徴の相互作用から新しい特徴を作成する
  • ニューラル・ネットワーク検索 – 最新の学術文献から特定のアーキテクチャーを採用する
  • AutoAI パイプライン最適化 – 特定の既製のアルゴリズムを選択するか、既存のアルゴリズムを組み込む
  • ハイパーパラメーター最適化 (HPO) – HPO を有効または無効にするか、自動特徴量エンジニアリングのステップが完了するごとに実行する HPO を選択し、特定のハイパーパラメーターの探索空間を定義する
  • ワンクリックによるデプロイ – デプロイ先の環境として IBM Cloud またはその他のクラウド・インフラストラクチャーを選択する
  • 説明可能性とバイアス排除 – データとアルゴリズムに含まれるバイアスを検出して軽減するか、AI Fairness 360 を利用してトレーニングする
  • AI ライフサイクル管理 – デプロイ後のパフォーマンスをリアルタイムでモニタリングし、ワンクリックによる強化学習を使用してモデルのパフォーマンスを改善する

より良い関係: AI パイプラインを完了するまでの時間を短縮

AI によって構築された AI は人間よりも優れていると主張する声があります。最近、Dakuo Wang 博士と彼の研究チームにより、データ・サイエンティストの参加した定性的研究が行われました。この研究では、参加者の一部に IBM AutoAI を使用してモデルを作成するというタスクが与えられ、残りの参加者は Jupyter Notebook 環境内で Python ライブラリーを使用して各自で同じタスクを行いました。その結果、データ・サイエンティストのグループが AutoAI を使用して共同で作成したモデルは、品質の点 (ROC AUC スコア 0.90 に対し 0.92)、速度の点 (15 分に対し 4.4 分) で大幅に優れていて、ヒューマン・エラーも少ないこと (割り当てられた時間内にタスクを完了した参加者 46.7% に対し 100%) が明らかになりました。この研究では、データ・サイエンティストが AutoAI がシステムをどのように受け止めており、このシステムとのやり取りをどう感じたのかも明らかになっています。インタビューを受けた参加者たちは、データ・サイエンティストと自動 AI システムの間には競争関係ではなく協力関係が生まれると確信しています。

AutoAI は、人間のフィードバックを取り込むこと、そしてデータ・サイエンスの実施手法を強化するとともに、実験プロセスを加速することを目的に設計されています。この設計により、高度なコーディング・スキルを持たない個人でもさまざまな選択肢を調査し、より良い質問を識別し、最適なモデルを選択してデプロイすることが可能になっています。

AutoAI 用のダッシュボードは人間による操作を置き換えるのではなく促進するものとして、データ・サイエンティストと領域専門家が情報に基づく選択を行い、モデルの作成に貢献できるようにします。以下の IBM AutoAI システムのスクリーンショットに、8 つのパイプラインの構成 (上の図) と、選択された指標 (ROC AUC) に従ってモデルをランク付けするリーダーボード (下のリスト) が示されています。何十ものアルゴリズムの中から、AutoAI はロジスティック回帰とランダム・フォレストの 2 つを選択し、アルゴリズムごとに 4 つのモデルを生成しています。ロジスティック回帰アルゴリズムを使用した 4 つのモデルのうち、パイプライン P2 にはハイパーパラメーター最適化のステップが含まれている点で、P1 と違いがあります。パイプライン P3 には特徴量エンジニアリングのステップが含まれ、P4 には 2 回目の HPO ステップが含まれています。

パイプライン・リーダーボード・ダッシュボードのスクリーンショット

IBM の研究者たちは、人と AI システムが協力するこの新しいパラダイムを「Human-AI Collaboration」(人間と AI のコラボレーション) と呼んでいます。このパラダイムでは、人間と AI システムがパートナーとして特定のタスクに取り組み、互いを補完し、不可欠で、説明責任を果たす機能を提供します。

まとめ

AutoAI はハイブリッド・マルチクラウド環境全体で使用およびスケーリングするように IBM Cloud Pak for Data に標準装備されています。AutoAI を使用するメリットは数多くあります。特に、特定のビジネスや専門分野の理解を深めて予測しようと取り組んでいる人間をサポートするという点で大きなメリットをもたらします。これらのメリットには以下が含まれます。

  • モデルの作成に要する時間を短縮。AutoAI がデータの準備、特徴の識別、最適化、モデルの生成を行うので、人間が作業する場合よりも短時間でモデルを作成できます。
  • スキルの不足を克服。データ・サイエンスの経験がない業界の領域専門家でも、日常業務にデータ・サイエンス手法を採り入れることができます。
  • より多くの使用ケースを発見。モデルをよりすばやく調査できるため、データ・サイエンティストは実験により多くの時間を費やすことができます。
  • 主要な予測子を識別。自動特徴量エンジニアリングによって、予測結果を左右する主要な予測子を識別できるため、より簡単にデータセットから予測を引き出せます。
  • モデルをランク付けして調査。パイプライン候補を比較して、特定のタスクに最適なモデルを判断できます。
  • 簡単にモデルをデプロイ。AutoAI が生成するパイプラインによって、モデルのデプロイが容易になります。デプロイされたモデルに REST API を使用してアクセスし、予測を行うことができます。

このテクノロジーは急速に変化しつつあるので、転移学習やビジネス上の制約などの分野での開発の最新情報をお見逃しなく。

IBM Cloud 上の IBM Watson™ Studio 内で今すぐ AutoAI を利用できます。IBM Cloud Pak for Data の一部としての AutoAI は、今年の終わり頃に利用可能になる予定です。

ラーニング・パス Simplify your AI lifecycle with AutoAI で、AutoAI についての理解をより深めることができます。

Dakuo Wang は、マサチューセッツ州ケンブリッジにある IBM Research AI に科学研究員として勤務しています。研究分野は人間とコンピューターの相互作用 (HCI) と人工知能 (AI) が交わる部分です。現在、研究者、エンジニア、設計者からなるチームのリーダーとして、機械学習パイプラインを初めから終わりまで自動化するソリューションとしての IBM AutoAI におけるユーザー・エクスペリエンスの調査と設計を進めています。AutoAI、チャットボット、臨床診断意思決定支援システム (CDSS) などの各種 AI システムでのユーザー操作の研究を基に、人間と共同作業する AI システムを研究および設計する新しいフレームワークとして「Human-AI Collaboration」を提案しています。IBM Research に入社する前、Dakuo Wang はカリフォルニア大学アーバイン校で情報とコンピューター・サイエンスの博士号と修士号を取得し、École Centrale d’Électronique Paris で情報システムの修士号、北京工業大学でコンピューター・サイエンスの学士号を取得しました。フランス、中国、米国でエンジニア、設計者、研究者として勤務した経験があります。