在数据科学领域,我们往往会开展大量工作来收集关于对整个社会或某个部分产生影响的洞察。然而,我们常常无法向数据科学领域之外的受众传达,抑或是未能有效地传达我们发现的结果。而可视化则可在这方面大显身手。通过直观呈现我们的洞察和预测结果,作为数据科学家和数据爱好者,我们可以真正影响并教育我们周围那些可能没有同样机会从事类似项目或主题的人。

通过可视化我们的发现和那些最能造福于社会的洞察,我们可以将重要的结果展示给那些没有处理或无法获得数据的人。由此,我们可以建立人们对重大问题的认识,甚至可能带来改变。这个过程也伴随着责任 — 可视化很容易产生偏见,所以我们需要确保完整复原故事原貌,并尝试评估到底发生了什么,而不仅仅是讲述我们认为的答案。我们新的 Code Pattern,创建可视化效果来了解食物无保障状况为您介绍了如何使用 IBM Watson Studio、Pandas、Pixie Dust 和 Watson Analytics 来实现这一点。

令人苦恼的食品发展趋势

随着肥胖和糖尿病发病率的攀升,食品安全对生活在美国的人们来说是一个日益严重的问题。目前,三分之二的美国成年人和三分之一的未成年人被认为是肥胖人群,近十分之一的美国人患有糖尿病,近半非洲裔美国人则患有心脏病。美洲原住民居住地通常没有杂货店……所有这些趋势都在不断发展。不幸的是,随着快餐和加工食品在全球越来越受欢迎,这些趋势逐渐全球化。令人吃惊的是,这一切都发生在过去几十年!由此,心血管疾病是全球主要死亡原因,每年有 1.73 亿人口因此而丧命,并且这一数字仍在不断攀升。问题不仅在于新鲜农产品匮乏,还在于饮食文化和传统、健康饮食教育不足以及种族和收入不平等,这一点可以从社区和邮政编码的可用性差异中得到证明。显然,这是一个需要更多关注度的主题。

我们在此 Code Pattern 中着重关注全美的食物无保障状况。我们使用美国政府公开的数据,考虑到新鲜农产品匮乏、与饮食有关的疾病、种族、贫困、地理位置和其他因素等。这些政府数据已经汇总成数据集以供我们使用,您可以在我的 github 存储库的 combined_data.csv 下找到它。您可从美国劳工统计局和美国农业部中找到原始政府数据。处理此类数据优势在于它是公开的,任何人都可以使用和探索。我鼓励你们不仅要查看我的 Notebook,而且要深入了解,并且从中探索新的知识。这是一个非常复杂的问题,除了此 Code Pattern 之外还有很多东西需要探索。

使用的工具有什么,我为什么要使用这些工具?

IBM Watson Studio 是一个在线浏览器平台,在此您可以将 Notebook 或 R Studio 用于您的数据科学项目。IBM Watson Studio 的独特之处在于,它会自动为您启动一个 Spark 实例,使您毫不费力的在云中工作。此外,IBM Watson Studio 还具有公开的数据供您使用,您可以将其连接至您的 Notebook。还有其他以 Notebook 形式提供的项目,您可以遵循这些项目并将其应用到您自己的用例中。IBM Watson Studio 还可以保存您的工作,使用链接共享,或者直接将其发布到 GitHub,还可与他人协作,就像我现在所做的一样!

Pixie Dust 是一个可视化库,可在 IBM Watson Studio 中使用。已经将其安装到 IBM Watson Studio 中,一旦导入,仅需要一行代码(两个单词)即可使用。使用相同的代码行,您可以从 Python 库 matplotlib、seaborn 和 bokeh 中选择不同的值,以您希望的任何方式显示和展现。如果包含地理数据,您还可以根据自己的喜好连接到 Google Maps 和 Mapbox。请查看 Pixie Dust 教程。

IBM Watson Analytics 是另一个浏览器平台,您可以输入数据、执行分析,然后可视化发现的结果。如果您是数据科学新手,Watson 建议您将提供的数据联系起来并将其可视化。可视化方式涵盖了条形图、散点图、预测螺旋图、决策树、热点图和趋势线等等。Watson 平台使您能与他人分享您的发现并将其可视化,以完成您的管道。请查看我的可视化 Pattern。

可视化问题

和许多数据科学调查一样,此项分析可能对美国的食物无保障政策和人们的做法产生重大影响。更好的是,我们可以快速创建许多类似的项目,并通过使用 Pandas、Pixie Dust 以及 Watson 的预测和推荐的可视化功能与他人共享这些项目。

只要您查看 Notebook 并深入研究 Watson Analytics,您就能看到我们开发的可视化项目(参见以下示例)。我们可以看到肥胖和糖尿病高度相关,而且几乎是同步的(如果一个人肥胖,那么他/她很有可能患糖尿病,反之亦然),并伴随食物无保障状况(如果一个人食用的食物无保障,那么他/她很有可能肥胖或患糖尿病)。我们还可以了解到,这似乎是一个收入和种族方面的不平等问题,非裔美国人和西班牙裔美国人比高加索人和亚洲人更容易受到食物无保障和与饮食有关疾病的影响。因此,如果一个人食用的食物无保障,而且是有色人种,那么他/她更有可能肥胖或患有糖尿病。

我们还可以看到,有资格享受减价午餐的学龄儿童更有可能肥胖,而那些参与“从农场到学校”项目的儿童患有肥胖的可能性更小。这可能意味着“从农场到学校”项目提供了更多新鲜农产品的选择。我们还可以想象到,那些有资格享受减价午餐的儿童的家庭收入比那些没有资格的人要低。这就意味着低收入家庭的孩子更有可能肥胖。由此您是否看到了一种模式?

最终,我们无法从数据本身得出明确的结论(尤其是因为政府没有最新的可用数据),因为我们需要更多的信息来做出全面的陈述。然而,此项分析还是毫无疑问的帮助我们更好地了解了美国面临的形势。

食物无保障与肥胖有关。

食物无保障与肥胖有关。

肥胖与糖尿病有关。

肥胖与糖尿病有关。

糖尿病发病率最高的州

糖尿病发病率最高的州。

导致食物无保障的因素包括汽水税、种族和使用联邦援助

导致食物无保障的因素包括汽水税、种族和使用联邦援助。

革命性的演示

在回顾了数据探索和可视化之后,我们了解到食物无保障是一个复杂的问题,不能完全归咎于食物供应。相反,这种与饮食有关疾病的高发率和获得新鲜农产品的渠道匮乏,根源在于种族和经济不平等。美国政府的许多非营利组织、学术界和其他领域都投入了大量的时间来研究此项分析,且认识到这是一个极其困难的问题。然而,培养意识和进行教育还有很长的路要走。通过查看我们刚刚评估和可视化的数据,我们可以为那些仍未意识到这种情况的人带来革命性的演示。您可以通过 Watson Studio 或 Watson Analytics 轻松地共享您的工作并进行扩展。您可以创造出一片新天地。

我希望你们查看创建可视化效果来了解食物无保障状况,并从我的 Github 上的 Notebook 中回顾此 Code Pattern 的所有步骤、分析及洞察。

本文翻译自:Visualizing food insecurity in DSX with Pixie Dust and Watson Analytics(2019-02-09)

加入讨论