如果运气不好,作为一名数据科学家,你会花 80% 的时间寻找正确的数据。这完全是在浪费时间、金钱和精力。而基于开源和完全集成的 Watson Studio 则提供了您所需要的工具。

作为数据科学家,您在处理业务问题方面所起到的作用日益重要。但若不能快速获取相关的数据和拥有合适的工具,您就无法做任何事。Watson Studio 可帮助您作为专业人士快速从业务问题切换到解决方案。

客户流失率预测
假设您的企业希望了解个人客户的流失率。这并不是偶然的例子,因为流失预测是机器学习的 “hello world”:您在这个领域的第一步。这是一个众所周知的领域,不仅如此,也是一个典型的二元问题:客户要么离开,要么不离开。作为数据科学家,首先,您需要使用 Watson Studio 为项目创建一个工作环境,并将所有数据和机器学习资产都囊括在内。这包括涉及到的所有人员,即所谓的“协作者”。

项目将手头任务相关的所有资产(数据、模型、优化流程等)与人员(协作者)集结在一起。

 

合适的数据
随后,借助可用的工具找到正确的数据。查看 Knowledge Catalog,了解哪些数据可能与特定问题相关。通过在图形用户界面中深入研究该数据源,可找到有关该数据的各种信息。概要信息显示了数据概况、其中所含的内容以及是否缺失任何信息。同时还可向特定数据样本添加注释。一旦确定对任务有价值的数据,就可将其作为项目资产添加进来,可添加数据文件本身,也可添加指向数据的连接。

请注意,Knowledge Catalog 不包含数据本身,仅包含足以供您判断资产是否对项目有价值的信息。Knowledge Catalog 具有指向云端资源和本地资源(IBM 资源和非 IBM 资源)的连接器。

Knowledge Catalog:提供对所有数据科学资产(公司数据、ML/AI 模型、Notebook 等)的统一受监管访问。

通常,这些数据并未做好充分准备,无法直接提供给机器学习算法。在此情况下,数据必须先经过“优化”:清理、去重、移除不相关字段。另外,在此流程步骤中,还可通过添加其他信息或者与其他数据源相结合,对数据进行扩充。Data Refinery 工具提供了 GUI 式的方法来完成此任务。此工具基于热门的 R-library dplyr —— 实际上是 sparklyr,因为整个 Watson Studio 平台都是基于 Apache Spark 构建的。随后,可逐步对数据进行处理和准备。所有一切都已集成,并且基于开放源码。

Watson Studio 包含“命令行”工具(例如,Notebook)和以直观方式显示操作的工具。Data Refinery 工具支持可视化 dplyr (SparklyR) 编码,提供概要分析和可视化辅助工具,以便于轻松调优数据提炼管道。

 

供应准备就绪
下一个阶段是“运行”,在此阶段中,可对数据进行有效的处理和准备。为此,将创建全新的数据资产。准备好提供给机器学习算法。随后,可创建模型来预测客户流失率。在此案例中,我们选择了“二元分类”方法。可将多种数学模型(例如,“决策树”或“随机森林”)的性能加以比较。

指导式模型训练,能够让不同算法进行“竞赛”。

 

只需点击几次,即可将最佳模型作为 API 投入生产,或者用于批处理或实时预测。

具有版本化功能和模型性能监控选项的“一键式”部署可定期对模型进行评估和重新训练,确保模型性能一直处于可接受的状态。

Watson Knowledge Catalog:基于开源的工具
以上示例展示了在合适工具的帮助下,如何在约半小时内从发现业务问题转变为建立功能完善的客户流失率模型。显然,此处假设了一种理想状况,即能够以合适的格式提供合适的数据,但这份概述毫无疑问证明了 Watson Studio 是能够快速实现从发现业务问题到建立生产模型的宝贵工具。

请注意,Watson Studio 完全基于开源工具(例如,Jupyter Notebook 和 RStudio)和开源软件(例如,Apache Spark、Python (Anaconda) 和 R)。此平台添加了各种直观的编码辅助工具,例如,Data Refinery (dplyr) 和神经网络建模器(Tensorflow、Keras、Caffe、PyTorch),还添加了一些协作工具,如 Knowledge Catalog 和社区,当然还包括支持快速实现从发现业务问题到确定 ML/AI 解决方案的过程。

想亲自体验一下吗?遵循此 Code Pattern “使用 XGBoost 分析银行市场营销数据,洞察客户购买行为” ,了解更多信息。

登录 IBM Cloud,即刻开始使用相关服务!

本文翻译自: An open source data analytics toolbox that works for you: Watson Studio and Knowledge Catalog (2018-08-10)

加入讨论