新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

IBM Developer Blog

IBM Developer サイトで最新の出来事をフォローし、情報を入手しましょう。

無料で入手してプロジェクト内で使用できるデータセットについて確認してください。


このブログは 2020 Call for Code Global Challenge の一部です。

オープン・データセットの概要とメタデータの重要性について

公共機関や研究出版物で参照しているデータセットに無料でアクセス可能にするよう求めるイニシアチブによって、無料で入手できるデータが増えてきました。例えば、総合科学ジャーナルの「ネイチャー」では著者向けのポリシーを策定し、著者が出版する研究の裏付けとなるデータに、興味を持つ読者がアクセスできるようにする方法を指定しています。

データセットに含まれる特定のデータをツールで検索しやすくするために、データセットの作成者、研究者、サプライヤーは、データセットにメタデータを追加するよう奨励されています。データセットで使用するメタデータにはさまざまな形があります。例えば、米国政府の data.gov サイトでは標準的な DCAT-US Schema v1.1 を使用しています。一方、Google Dataset Search ツールでは主に schema.org のタグに依存しています。けれども、メタデータをまったく使用していないデータセットも少なくありません。したがって、検索ですべてのオープン・データセットを見つけられるわけではありません。興味の対象となる地域、都市、またはトピックのポータルがある場合は、そのポータルにアクセスして調べる必要があります。メタデータに深い関心をお持ちの場合は、2020 年 2 月付けの DCAT 仕様で、DCAT と schema.org との間の調整を確認できます。データセット自体も、CSV、JSON、GeoJSON、.zip など、さまざまなダウンロード形式で提供されています。場合によっては、API を使用してデータセットにアクセスできることもあります。

利用できるデータセットが増えている背景には、データを使用可能にするための政府機関のイニシアチブを通じた提供も挙げられます。米国では、data.gov250,000 個を超えるデータセットを開発に使用できるよう公開しています。インドでの同様のイニチアチブ data.gov.in では、350,000 個を超えるリソース を利用できます。

さらに、IBM などの企業が気象データなどのデータを提供したり、無料で使用可能なデータを処理する方法についてアドバイスしたりすることもあります。その一例は、オープンソースの Model Asset eXchange 気象予測子 をトレーニングするために使用された JFK 空港の NOAA 気象データについて紹介している記事です (このモデルの成果物は GitHub 上で確認できます)。IBM Data Asset eXchange (DAX) 内で、エンタープライズ・データ・サイエンスに役立つデータセットを調べることもできます。IBM の PAIRS (Physical Analytics Integrated Data Repository and Services) に登録して、https://ibmpairs.mybluemix.net/ にあるさまざまなデータセットにアクセスすることも可能です。これらのデータセットは正規化されているので簡単に使用できます。

もう1つの例は Anthem Inc.で、研究者と開発者が安全な Digital Data Sandbox にアクセスできるようにして、ヘルスケアの最も複雑な問題へのソリューションを有効にします。Digital Data Sandbox は、12年間で4500万を超える固有の生活に関する認定済みで匿名化されたデータセット*を備え、洞察を発見し、アルゴリズムを構築およびトレーニングし、Anthemエキスパートとソリューションを検証し、それらのソリューションを現実の世界に展開します。Digital Data Sandboxの詳細については、https://www.anthem.ai/sandbox にアクセスしてください。

プロトタイプを開発する際、あるいはハッカソンでモデルをトレーニングする際は、より説得力のあるソリューションにするために関連するデータにアクセスできると好都合です。開発の出発点として使用できる一般公開データセットは多数あります。以下に、これらの一般公開データセットを見つける方法と、使用する際の考慮事項について説明します。データセットによっては、例えば欠落データを処理するなど前処理してからでないと使用できないものもありますが、通常はハッカソンで使用する分には問題ありません。

雲の写真

データセットを見つける方法: データセットの検索

データセットを検索するには Google Dataset Search を使用できます。この Dataset Search ツールでは、データセットの検索に国、都市などといったキーワードを使用したり、医療、農業などといったカテゴリーを使用したりできます。さらに、データセットの更新状態、ダウンロード形式 (例: JSON、画像)、使用権 (商用または非商用)、無料のデータセットであるかどうかなどの追加フィルターも適用できます。データセットにメタデータ (https://schema.org/ タグなど) が追加されている場合には、Google Dataset Search が非常に役立ちますが、このツールが使用する形式のメタデータがまだ追加されていないデータセットもあります。その場合は、多数のデータセットを集めたサイトにアクセスしてください。もちろん、両方の方法を使用して見つかるデータセットもあります。

データセットを見つける方法: 多数のデータセットを集めたサイトにアクセスする

多くの政府機関と国連や世界銀行などの機関ではデータセットを提供しています。以下に数例を挙げます。

  • data.gov: data.gov サイトでは、興味のある国についてのデータセットを調べることができます。通常、政府機関が提供しているデータを見つけるには、このサイトを使用します。例えばアイルランドについて調べる場合、https://data.gov.ie/ にアクセスすると、エネルギー、環境、輸送機関などのトピックに関する 10,000 個を超えるデータセットが見つかります。オーストラリアの場合は https://data.gov.au/ にアクセスすると、80,000 個を超えるデータセットが見つかります。通常、これらのサイトにはそれぞれに固有の検索ツールとデータセット・カタログが用意されています。また、オーストラリアのサンゴ礁といった、その国に特に関連するデータセットも見つかります。

  • 都市のデータ: 多くの都市ではオープン・データ・イニシアチブを進めています。例えば、ニューヨークの https://opendata.cityofnewyork.us/、パリの https://opendata.paris.fr/、ベルリンの https://daten.berlin.de/ などです。

  • 気象: weather.gov では、米国の気象データを見つけることができます。このサイトから、NOAA (National Oceanic and Atmospheric Administration) データセット (https://www.ncdc.noaa.gov/cdo-web/datasets) とモデル・データセット (https://www.ncdc.noaa.gov/data-access/model-data/model-data)、航空データ METAR (https://www.aviationweather.gov/metar) など、数多くのデータにアクセスできます。一部の国では、気象データを探索するためのツールを提供しています。その一例は、オランダの https://climexp.knmi.nl/start.cgi です。

  • nasa.data.gov: NASA (National Aeronautics and Space Administration) オープン・データ・ポータルでは、数十万点のデータセットを提供しています。これらのデータセットは、年に 1 回の NASA Space Apps Challenge でよく使われています。

  • UNdata: UNdata では、農業、犯罪、教育、エネルギー、産業、労働、国民所得、人口、観光事業に関するデータを検索できます。UNdata で利用できる統計情報は、国連の統計部と人口部ならびに他の UN 機関により生成されています。

データセット・アグリゲーター・サイトと関連カタログ

一部のサイトでは、data.gov などの他のサイトがソースとなっているデータセットをカタログにまとめています。これらのサイトを調べる価値はあります。特殊なアクセスには料金がかかる場合もあるので注意が必要ですが、こうしたアグリゲーター・サイトを調べると利用可能なデータセットの概要をつかめます。一連のデータセットを集約しているサイト、またはオープン・データセットを紹介しているサイトの例としては、以下が挙げられます。

ライセンスとプライバシーに関する考慮事項

最近では以前よりも簡単に、事実に基づくデータセット (測定値、表形式データ、大陸、貯留層、気象など) を使用して、国によってはプライバシーの問題に発展する恐れがある個人の名前や写真などの個人データの使用を回避できるようになっています。

場合によっては、学究目的専用と明示されているデータセットもあります。通常、データセットの所有者はハッカソンでデータセットが使用されることを問題視しませんが、確認をとることが最善策です。例えば、マルチモーダル (画像とテキスト) の Deep Learning For Disaster Response データセット (https://gitlab.com/awadailab/crisis_multimodal) には、学究目的でのみダウンロード可能と明示されています。このデータセットの作成者に確認したところ、彼女は社会を良くするためのハッカソンでデータセットを使用することに喜んで同意してくれました。これと同じようなアプローチをとることができます。もう 1 つ注意すべき点として、ハッカソンで作成したソフトウェアの販売を開始する場合、またはそれを製品の一部にする場合は、学究用としてマークされたデータセットを使用することはできません。

ライセンスが指定される場合、多くのデータセットでは Creative Commons (CC) ライセンスが使用されます。その一例は、地震早期警告 (EEW) データセットです。CC by NC とある場合、そのデータセットを商用目的では使用できないことを意味するので注意してください。

*Anthem に発行された専門家による匿名化証明書に準拠しています。