分析从使用 LoRaWAN 网络的远程 IoT 系统收集到的大型数据集

摘要

在本 Code Pattern 中,我们将演示如何分析 EPA 提供的大型空气质量数据集。这可被视为“智慧城市”用例。 我们会演示如何使用 Watson Studio 和 Python 数据科学软件包来分析大型数据集。Jupyter Notebook 提供了若干关于如何利用开源软件包来分析数据集的不同示例。

概览

本 Pattern 需要使用结构化数据集。可以通过各种方式生成此数据。其中一种方式就是遵照我们题为“为利用 LoRaWAN 网络的远程 IoT 系统设置硬件平台”的相关 Pattern 来操作,这里介绍了部署远程网络来收集传感器数据的完整过程。

作为替代方法,我们将使用 EPA 已生成的数据集,测量美国不同地区的污染水平。全年每小时采集一次测量值,这样我们就能够使用时间序列分析。

完成本 Code Pattern 后,您将掌握如何:

  • 在 Watson Studio 中创建 Jupyter Notebook。
  • 通过移除不必要的数据来清理数据集。
  • 使用 Pandas (Python Data Analysis Library) 查找数据集内的模式。
  • 使用“matplotlib”库创建图形,从而直观呈现高级别数据趋势。

流程

用于分析大型数据集的架构图

  1. 终端节点设备现场捕获传感器数据。
  2. 捕获到的数据通过无线协议发送至网关。
  3. 网关将传感器数据转发至 Watson IoT Platform。
  4. Watson IoT Platform 接收到的数据包在 Cloudant 中进行归档。
  5. Watson Studio 导入归档数据,并使用 Juypter Notebook 处理数据。

操作说明

准备好行动了吗?有关详细操作说明,尤其是 Jupyter Notebook 执行的分析过程,参阅 README

本文翻译自:Analyze large data sets collected from a long-range IoT system that uses LoRaWAN networking(2018-11-28)