一般公開されている医療データセットを分析して洞察を引き出す  

Watson Studio と scikit-learn による機械学習を利用して、米国のオピオイド処方医師について予測する

Last updated | By Madison J. Myers

Description

世界中に健康問題が溢れかえる中、さまざまな健康問題のデータを抽出してそこから意味を引き出そうと目指しているデータ・サイエンティストの目の前にはデータの金鉱があります。そのようなデータの金鉱の 1 つとして、このコード・パターンではオピオイドの過剰摂取による死亡に関する調査データ・セットを探索します。パターンに沿って、データを Watson Studio ノートブック内で探索する方法、初期の探索結果のいくつかを視覚化する方法、そして scikit-learn を使用してさまざまなモデルをトレーニングする方法と、どのモデルがオピオイドの処方について最も正確に予測したかを評価する方法を学んでください。

Overview

米国では、オピオイドの過剰摂取が非常に深刻な問題になってきています。データ・サイエンティストが独力でこの問題を解決できるわけではありませんが、データを調べて、この問題の現状と特定の結果を招いている要因を特定することはできます。

このコード・パターンでは、オピオイドの過剰摂取による死亡や処方者のタイプ、処方などの値が含まれた Kaggle データセットに基づき、scikit-learn と Python を (IBM Watson Studio 内で) 使用してオピオイド処方医師について予測する方法を説明します。具体的には、Watson Studio ノートブック内でデータを探索し、Pixie Dust を使用して初期の探索結果をさまざまな形で視覚化します。初期探索プロセスが完了した後は、scikit-learn を使用してさまざまなモデルをトレーニングし、どのモデルが最も正確にオピオイドの処方を予測したかを突き止めます。scikit-learn ライブラリーを使用すれば、いくつもの機械学習分類子に簡単にアクセスできます。しかも、これらの分類子を実装するために作成しなければならないコードは比較的わずかです。

このコード・パターンは、社会的正義の問題や健康問題に関心を持つデータ・サイエンティストやデータ愛好家、あるいは DSX と機械学習の入門者を対象に、データの探索方法、データのクリーニング方法、モデルのトレーニング方法、モデルの評価方法を説明することを目的に作成されています。

このコード・パターンをひと通り完了することで、以下の方法がわかるようになります。

  • Watson Studio を使用する
  • 複数のデータフレームを探索する
  • 探索結果を視覚化する
  • Python と pandas を使用してデータをクリーニングする
  • ターゲット変数を予測する、さまざまな機械学習モデルを作成する
  • モデルのパフォーマンスを評価する

Flow

  1. IBM Watson Studio サービスにログインします。
  2. Watson Studio 内でデータをデータ・アセットとしてアップロードします。
  3. Watson Studio 内でノートブックを起動し、作成したデータ・アセットを入力します。
  4. pandas を使用してデータを探索します。
  5. Pixie Dust を使用してデータ視覚化を作成します。
  6. scikit-learn を使用して機械学習モデルをトレーニングします。
  7. 各モデルの予測パフォーマンスを評価します。

Instructions

このパターンの詳細な手順については、README を参照してください。手順の概要は以下のとおりです。

  1. IBM Watson Studio にサインアップします。
  2. ノートブックを作成します。
  3. ノートブックを実行します。
  4. 結果を保存して共有します。
  5. Python を使用してデータをクリーニングします。
  6. scikit-learn を使用してさまざまなモデルを実行し、オピオイド処方医師について予測します。
  7. モデルを評価します。

Related Links

Watson Studio

Solve your toughest data challenges with the best tools and the latest expertise in a social environment built by data scientists.

pandas

Provides high-performance, easy-to-use data structures and data analysis tools for the Python programming language.

Pixie Dust

An open source Python helper library that works as an add-on to Jupyter notebooks to improve the user experience of working with data.

scikit-learn

Simple and efficient tools for data mining and data analysis.