新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

一般公開されている医療データセットを分析して洞察を引き出す

概要

世界中に健康問題が溢れかえる中、さまざまな健康問題のデータを抽出してそこから意味を引き出そうと目指しているデータ・サイエンティストの目の前にはデータの金鉱があります。そのようなデータの金鉱の 1 つとして、このコード・パターンではオピオイドの過剰摂取による死亡に関する調査データ・セットを探索します。パターンに沿って、データを Watson Studio™ ノートブック内で探索する方法、初期の探索結果のいくつかを視覚化する方法、そして scikit-learn を使用してさまざまなモデルをトレーニングする方法と、どのモデルがオピオイドの処方について最も正確に予測したかを評価する方法を学んでください。

説明

米国では、オピオイドの過剰摂取が非常に深刻な問題になってきています。データ・サイエンティストが独力でこの問題を解決できるわけではありませんが、データを調べて、この問題の現状と特定の結果を招いている要因を特定することはできます。

このコード・パターンでは、オピオイドの過剰摂取による死亡や処方者のタイプ、処方などの値が含まれた Kaggle データセットに基づき、scikit-learn と Python を (IBM Watson Studio 内で) 使用してオピオイド処方医師について予測する方法を説明します。具体的には、Watson Studio ノートブック内でデータを探索し、Pixie Dust を使用して初期の探索結果をさまざまな形で視覚化します。初期探索プロセスが完了した後は、scikit-learn を使用してさまざまなモデルをトレーニングし、どのモデルが最も正確にオピオイドの処方を予測したかを突き止めます。scikit-learn ライブラリーを使用すれば、いくつもの機械学習分類子に簡単にアクセスできます。しかも、これらの分類子を実装するために作成しなければならないコードは比較的わずかです。

このコード・パターンは、社会的正義の問題や健康問題に関心を持つデータ・サイエンティストやデータ愛好家、あるいは DSX と機械学習の入門者を対象に、データの探索方法、データのクリーニング方法、モデルのトレーニング方法、モデルの評価方法を説明することを目的に作成されています。

このコード・パターンをひと通り完了することで、以下の方法がわかるようになります。

  • Watson Studio を使用する
  • 複数のデータフレームを探索する
  • 探索結果を視覚化する
  • Python と pandas を使用してデータをクリーニングする
  • ターゲット変数を予測する、さまざまな機械学習モデルを作成する
  • モデルのパフォーマンスを評価する

フロー

フロー

  1. IBM Watson Studio サービスにログインします。
  2. Watson Studio 内でデータをデータ・アセットとしてアップロードします。
  3. Watson Studio 内でノートブックを起動し、作成したデータ・アセットを入力します。
  4. pandas を使用してデータを探索します。
  5. Pixie Dust を使用してデータ視覚化を作成します。
  6. scikit-learn を使用して機械学習モデルをトレーニングします。
  7. 各モデルの予測パフォーマンスを評価します。

手順

Find the detailed steps for this pattern in the README. Those steps will show you how to:

  1. Sign up for IBM Watson Studio.
  2. Create the notebook.
  3. Run the notebook.
  4. Save and share.
  5. Clean the data using Python.
  6. Run several models to predict opioid prescribers using scikit-learn.
  7. Evaluate the models.