摘要
在本 Code Pattern 中,我们将演示如何分析 EPA 提供的大型空气质量数据集。这可被视为“智慧城市”用例。 我们会演示如何使用 Watson Studio 和 Python 数据科学软件包来分析大型数据集。Jupyter Notebook 提供了若干关于如何利用开源软件包来分析数据集的不同示例。
概览
本 Pattern 需要使用结构化数据集。可以通过各种方式生成此数据。其中一种方式就是遵照我们题为“为利用 LoRaWAN 网络的远程 IoT 系统设置硬件平台”的相关 Pattern 来操作,这里介绍了部署远程网络来收集传感器数据的完整过程。
作为替代方法,我们将使用 EPA 已生成的数据集,测量美国不同地区的污染水平。全年每小时采集一次测量值,这样我们就能够使用时间序列分析。
完成本 Code Pattern 后,您将掌握如何:
- 在 Watson Studio 中创建 Jupyter Notebook。
- 通过移除不必要的数据来清理数据集。
- 使用 Pandas (Python Data Analysis Library) 查找数据集内的模式。
- 使用“matplotlib”库创建图形,从而直观呈现高级别数据趋势。
流程
- 终端节点设备现场捕获传感器数据。
- 捕获到的数据通过无线协议发送至网关。
- 网关将传感器数据转发至 Watson IoT Platform。
- Watson IoT Platform 接收到的数据包在 Cloudant 中进行归档。
- Watson Studio 导入归档数据,并使用 Juypter Notebook 处理数据。
操作说明
准备好行动了吗?有关详细操作说明,尤其是 Jupyter Notebook 执行的分析过程,参阅 README。
本文翻译自:Analyze large data sets collected from a long-range IoT system that uses LoRaWAN networking(2018-11-28)