这个博客是 2020 Call for Code Global Challenge 的一部分。
开放数据集和元数据重要性简介
由于一些研究机构和研究出版物要求那些引用了出版内容的数据集必须与出版内容一起免费提供,在这些倡议的助力下,越来越多的数据将能够免费使用。例如,《自然》杂志制定了一项面向作者的政策,声明了感兴趣的读者如何能够访问该杂志发表的研究背后的数据。
为了让工具能够轻松找到数据集中包含的内容,建议作者、研究人员和数据集提供商向数据集中添加元数据。数据集使用的元数据有多种形式。例如,美国政府 data.gov 网站使用标准的 DCAT-US Schema v1.1,而 Google Dataset Search 工具主要依赖于 schema.org 标签。然而,许多数据集根本没有元数据。这就是为什么您无法通过搜索找到所有开放数据集,您需要访问已知的门户,并了解您所感兴趣的地区、城市或主题是否存在门户。如果您对元数据非常感兴趣,可以在 2020 年 2 月发布的 DCAT 规范中了解 DCAT 与 schema.org 之间的结盟关系。数据集自身有各种格式可供下载,比如 CSV、JSON、GeoJSON 和 .zip。有时,可以通过 API 访问数据集。
让数据集可用的另一种方式是通过政府计划来提供数据。在美国,data.gov 有超过 250,000 个数据集可供开发者使用。印度也有类似的计划,data.gov.in 拥有超过 350,000 个资源可供使用。
像 IBM 这样的公司有时提供对数据的访问,比如天气数据,或者给出如何处理免费数据的提示。例如,肯尼迪国际机场 NOAA 天气数据简介用于训练开源的 Model Asset eXchange Weather Forecaster(您可以在 GitHub 上看到模型工件)。您可能还对 IBM Data Asset eXchange(DAX)感兴趣,有了 DAX 您可以探索对企业数据科学的有用数据集。您还可以在 https://ibmpairs.mybluemix.net/ 上注册以访问 IBM 匹配的(物理分析集成数据存储库和服务)数据集。这些数据集是标准化的,易于使用。
另一个例子是 Anthem 公司,它为研究人员和开发人员提供访问他们安全数字数据沙箱的权限,以便能够解决一些最复杂的医疗保健问题。数字数据沙箱拥有经过认证的身份验证数据集,在过去 12 年中积累了超过 4500 万个信息数据,它提供了前所未有的能力来发现洞察力,构建和训练算法,与 Anthem 专家一起验证解决方案并将这些解决方案部署到真实世界。
如果您正在寻找公开可用的语音数据来训练支持语音的应用程序,Mozilla 的多语言公共语音数据集可能适合您。数据集中的每个条目由一个惟一的 MP3 文件和相应的文本文件组成。在目前记录的 4200 多个小时的数据集中,许多数据集还包括人口统计元数据,如年龄、性别和口音,可以帮助训练语音识别引擎的准确性。在最新的版本中,有 40 种语言,包括英语、法语、德语、西班牙语和普通话(传统语言),但也有威尔士语、卡比尔语和 Kinyarwanda 语。作为一个社区驱动的项目,世界各地关心母语语音数据集的人们负责每一个新版本,使公共语音在每一个版本中更具有全球性和包容性。
在黑客马拉松活动期间开发原型或训练模型时,如果能够访问相关数据来增强您的解决方案的说服力,这会很棒。有许多公共数据集可供您使用。我将介绍一些查找这些公共数据集的方法,以及访问注意事项。请注意,某些数据集可能需要一些预处理才能使用(例如,处理缺少的数据),但对于黑客马拉松来说,这些数据集已经足够好了。
查找数据集的方法:数据集搜索
您可以使用 Google Dataset Search。使用 Dataset Search 工具,您可以通过关键字(如国家或地区或城市)或类别(如医疗或农业)来定位数据集。您还可以应用其他过滤器,例如数据集最近更新时间、下载格式(例如,JSON 或图像)、使用权限(商业或非商业)以及数据集是否免费。对于提供了元数据(例如 https://schema.org/ 标签)的数据集来说,Dataset Search 是一个很不错的工具。但是,有些数据集不包含 Google DataSet Search 使用的元数据格式,所以在这种情况下,您需要访问包含大量数据集的网站。当然,使用这两种方法都可以找到一些数据集。
查找数据集的方法:访问包含大量数据集的网站
许多政府和机构(如,联合国和世界经济银行)都提供了数据集。以下是一些例子:
data.gov:查找您感兴趣的国家或地区的 data.gov 网站。通常可以在这里找到由政府提供的数据。例如,对于爱尔兰,请访问 https://data.gov.ie/,您将发现超过 10,000 个关于能源、环境和交通等主题的数据集。对于澳大利亚,请访问 https://data.gov.au/,您将发现 80,000 多个数据集。通常,这些网站有自己的搜索工具和数据集目录。您还可以找到与国家特定内容相关的数据集,例如,澳大利亚珊瑚礁。
城市数据:许多城市都有开放数据计划,比如纽约的 https://opendata.cityofnewyork.us/,巴黎的 https://opendata.paris.fr/,柏林的 https://daten.berlin.de/。
天气:要查找美国的天气数据,可访问 weather.gov。在这个网站中,可以找到美国国家海洋和大气管理局 (NOAA) 数据集 https://www.ncdc.noaa.gov/cdo-web/datasets 和模型数据集 https://www.ncdc.noaa.gov/data-access/model-data/model-data、航空数据观测资料 https://www.aviationweather.gov/metar 等等。一些国家或地区提供了探索气候数据的工具,比如荷兰的 https://climexp.knmi.nl/start.cgi。
nasa.data.gov:美国国家航空航天局 (NASA) 开放数据门户提供了年度 NASA 太空应用挑战赛中经常使用的数万个数据集。
UNdata:可以在 UNdata 上找到有关农业、犯罪、教育、能源、工业、劳动力、国民核算、人口和旅游业的数据。UNdata 提供的统计数据是由联合国统计局和人口司以及其他联合国机构编制的。
数据集聚合站点和杂项目录
一些网站会将来自其他网站的数据集按类别进行整理,包括来自 data.gov 网站的数据集。这些网站值得浏览,注意有些网站针对专业访问会收取费用。但是,这些聚合网站确实可以让您了解可用的数据。聚合数据集或提供开放数据集介绍的网站示例包括:
- 开放知识基金会:列出来自世界各地的超过 550 个数据门户 http://datacatalogs.org/。
- 云端的开放数据集:您可以从 Grillo 找到基于物联网的地震预警 (EEW) 等数据集。
- Kaggle:您可以找到许多在竞赛中经常使用的数据集 (https://www.kaggle.com/datasets)。例如,https://www.kaggle.com/rtatman/188-million-us-wildfires 提供了 24 年间的美国森林大火数据
- 维基百科机器学习数据集列表:您可以在 https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research 找到用于机器学习的已标记数据集列表。
许可和隐私注意事项
使用真实数据集(如测量结果、表格数据、土地面积、水库和天气)更容易,要避免使用个人数据(可能会涉及隐私的人名和照片,具体因国家或地区而异)。
偶尔,您会发现数据集规定只能用于学术用途。数据集的所有者通常对数据集用于黑客马拉松场景没有意见,但最好检查一下。例如多模式(图像和文本)灾害响应深度学习数据集 (https://gitlab.com/awadailab/crisis_multimodal),该数据集规定了仅供下载作学术用途。在这种情况下,我们已经向作者确认,她同意该数据集可以在黑客马拉松中使用,特别是用于社会公益。您可以采取类似的方法。请注意,如果您继续开发并销售您在黑客马拉松中创建的软件,或者将其作为产品的一部分,那么您不应该使用标记为学术用途的数据集。
许多指定了许可证的数据集将有一个 Creative Commons (CC) 许可。例如地震数据 EEW。请注意,CC-by-NC 表示数据集不能用于商业目的。
注意获取 Anthem 的专家身份证明。
本博客翻译自:Useful data sets for Call for Code(2020-02-21)