开源技术 * IBM 微讲堂:Kubeflow 系列(10 月 29 日,8:00PM) 了解详情

构建基于机器学习的强大解决方案

早在 2013 年,IBM® 就将数据视为第二大自然资源。此后不久,IBM 首席执行官罗睿兰 (Ginni Rometty) 指出,如果公司在做出价值十亿美元的决策时是凭借直觉,而不是根据从数据预测模型中获得的洞察,那么基本上就是在为失败做准备。

人们经常问到“什么是机器学习?”这个问题。现在,许多组织前所未有地深刻意识到,整合基于机器学习的解决方案可以帮助他们保持领先地位。Gartner 在 2017 年发布的一份报告预测,到 2020 年,几乎所有新软件产品都将使用 AI 技术。虽然许多组织明白了采用基于机器学习的解决方案的重要性,但很难实现这种跃变。时间快进到 2019 年,Gartner 报告指出,只有 37% 的组织以某种形式适应了 AI

尽管每个组织都会遇到特定挫折,但我们发现,大多数问题在所有领域都是普遍存在的。在本文中,我将讨论组织和开发者在 AI 之旅中面临的一些最关键的问题,并提供缓解这些问题的几种方法。

处理非结构化数据

数据是构建高精度机器学习模型的基础。但数据本身也存在一系列挑战。通常遗留应用程序从不需要存储大量的历史数据。这会导致数据不足或缺乏代表性。此外,可用于训练和测试模型的数据存储在多个来源中。从这些来源收集这些数据可能会很麻烦。为了解决这些问题,可以在数据预处理阶段应用几种数据收集工具和技术。

可用数据通常表现为非结构化格式,例如电子邮件和评论。这些数据需要以统一的方式进行标记,以便机器学习算法在模型训练期间能够识别。在标记完这些数据集之后,可将这些数据集应用于多种监督式机器学习算法中。不过,还有一些非监督式技术(例如集群),可以用于对未标记的数据集进行分组。

机器学习新手?如果是新手,首先要学习简介,了解基础知识。

当涉及敏感或个人数据时,数据隐私和安全性是另外两个必须解决的限制因素。不过,有些可用的数据治理工具可以自动识别这些敏感字段,并可以提供许多选项来屏蔽这些字段。获取有关如何使用 Watson Knowledge Catalog 治理数据的概述。

掌握技能

在 AI 领域中,需要通过多个角色来构建和管理 AI 生命周期。数据管理员、数据工程师、数据分析师和数据科学家只是其中的一小部分。许多组织往往会将这些角色一概而论,这通常会导致缺乏对成功至关重要的全面团队。

构建预测模型需要精通多种复杂的机器学习算法。Python 和 R 是一些流行的语言,这些语言扩展了强大的库,使其能够支持构建基于机器学习的解决方案。尽管全球对机器学习专家的需求很高,但具有所需技能的人才却供不应求。

立即学习如何使用 Python 和 scikit-learn 来构建和测试您的第一个机器学习模型

简化流程以节省时间

构建预测模型非常耗时。典型的模型构建生命周期包括以下流程:收集、准备、分析和融入数据洞察,然后不断迭代,直到实现所需的流程效率为止。如果资源有限,那么将无法应对这种情况。

开发者往往需要借助工具以自动化方式大规模简化这种 AI 生命周期管理,以便准备数据,应用机器学习算法,以及构建最适合其数据集和用例的模型工作流,从而使他们可以专注于工作流的特定方面。幸运的是,诸如 AutoAI(一种自动化机器学习 (AutoML) 工具)之类的服务可让您轻松生成多个工作流。本系列教程将深入探究 AutoAI,并阐述如何在几分钟内找到并部署性能最优的模型。

随项目扩展而扩大

组织通常先要对试点项目进行试验,然后再决定是否切换到基于 AI 的解决方案。在此试验阶段获得令人信服的结果后,他们才会开始创建可扩展解决方案的流程。在这个过渡期间,组织面临的最大困难就是无法预见可扩展解决方案的资源需求。当开发试点项目时,一组样本数据和不需要太强大的处理器(例如 CPU)就足够了。但如果要将这些项目投入生产,就需要 GPU、数据存储湖、基于云的解决方案以及满足其他基础架构需求,这些需求会让成本估算指数倍增长。

为了缓解某些基础架构相关问题,IBM Watson™ Studio 提供了基于云的解决方案,使开发者可以协作执行端到端任务,例如准备数据和构建模型。Watson Studio 提供各种用于构建模型的服务,例如 AutoAI 和 SPSS Modeler。Watson Studio 入门学习路径探索如何使用此解决方案来处理构建机器学习解决方案所需的各个步骤。

注入信任和可靠性

到目前为止,我所讨论的挑战主要是指开发者在尝试实施基于机器学习的解决方案时所面临的技术难题。但适应新技术最重要的方面是能够在用户之间建立信任。尽管我们依靠机器学习算法来做出关键决策,但确保所做决策的公正且没有任何类型的偏见也很重要。

训练并部署机器学习模型之后,该模型所做预测的运作模式就像黑盒一样。如果有办法进行逆向工程并解释为何做出某种预测,那么将使模型更加可靠。如果发现模型在此过程中执行得不公正,就需要调整底层数据或调优算法以改进模型。此外,很少有行业要求对做出的每个预测提供原因,在这种情况下,并不需要模型可解释性。Watson OpenScale 可帮助跟踪在任何地方构建和运行的机器学习模型的这些结果。了解如何充满信任和信心地管理生产 AI

后续步骤

在本文中,我介绍了很多内容,包括组织对在其领域内采用基于 AI 的解决方案的兴趣日益浓厚,关于数据可用性、技能、资源、耗时解决方案的看法,以及被视作主要采用障碍的基础架构相关问题。对此,我建议使用 Watson Knowledge Catalog、AutoAI、Watson Studio 和 Watson OpenScale 作为缓解某些问题的可能方法。

下一步,您将需要更深入地研究其中一些领域,获得相关技术的实践经验,并了解我们如何在打包和简化企业对机器学习解决方案的采用方面取得进步。此外,IBM Cloud Pak for Data 是一种多合一的云原生解决方案,可将这些单独的产品作为一个包来使用。开始探索 IBM Cloud Pak for Data;在此我们讨论有关 IBM Cloud Pak for Data(一个完全集成的数据和 AI 平台)的机器学习案例研究。

本文翻译自:Build robust machine learning-based solutions(2020-08-05)