今天,我们正在经历数据和人工智能领域的巨大变化。纵观全局,从硬件到分布式数据处理,再到高级机器学习和深度学习,这些变革都将对我们的社会发展产生深远的影响。据麦肯锡对 3000 名了解人工智能的高管开展的一项调研显示,仅有 20% 的受访者表示他们目前在大规模使用人工智能相关技术,或者将其作为业务的核心部分。早期人工智能采用者和其他社区成员之间的差距必然会越来越大。

随着 TensorFlow、PyTorch、Keras 等开源深度学习引擎的不断涌现,企业愈加需要相关技能和技术,为与这些不同的机器学习引擎进行交互提供一致的、标准化方法。我们需要在行业中推广标准化方法(例如,ONNX),确保我们使用一套通用的标准和技术,并且都朝着共同的目标进发。另外,我们希望这些技术能够大众化,这样无论是以开源形式还是在企业中,开发人员都可以轻松访问和使用。

IBM 是关键的社区成员,也是这场变革的推动者。我们认为需要在开放标准、开放代码、开放社区和开放治理的驱动下,公开取得这些进步。 我之前讲述过 IBM 悠久的历史,以及它对开放标准所做出的贡献, 还介绍了在使用代码、内容和社区实现这些技术大众化的过程中,IBM 在 IBM Code 方面所做的工作。

CODAIT:开源数据和人工智能技术中心

大约两年前,IBM 成立了 Spark 技术中心 (STC),意在促进企业采用分布式分析领域的关键技术。在充满活力且规模庞大的 Apache Spark 社区的努力下,Apache Spark 已经成为企业分析堆栈中不可或缺的一部分。STC 团队为 Apache Spark 和周围的生态系统做出了重要贡献(参见下面的 STC 团队统计资料)。

今天,我很高兴地宣布 Spark 技术中心的业务范围已经扩大,现已涵盖了端到端的企业级人工智能生命周期。我们将继续完成我们的 Apache Spark 使命,并将团队任务扩展到人工智能技术领域,且近期着重关注深度学习方面。 开源数据和人工智能技术中心 (CODAIT) 的目标是让企业能够轻松创建、部署和管理人工智能模型。

在该中心成立之时,我们将引入两个重要的项目,此举将有助于促进企业采用深度学习技术。这两个项目都是开源领域的重要研究 IP。

Fabric for Deep Learning (FfDL): 我们发布了开源项目 Fabric for Deep Learning, 简称 FfDL(发音同 “fiddle” )。该项目采用了多种广为流行的开源框架,如 TensorFlow、Caffe 和 PyTorch,并真正将其作为一项云原生服务提供。FfDL 利用 Kubernetes 的强大功能,提供了一个可扩展、具有业务连续性能力和容错性的深度学习框架。

Model Asset eXchange (MAX): 此外,CODAIT 团队还发布了开源的企业级 Model Asset eXchange (MAX),这也是该领域的首批举措之一。MAX 是个一站式交流平台,数据科学家和人工智能开发人员可以在此使用由 TensorFlow、PyTorch 和 Caffe2 等他们最青睐的机器学习引擎创建的模型。不仅如此,该平台还提供了一种标准化的方法对这些模型进行分类、注释和部署,从而进行预测和推理。

CODAIT 团队统计资料

  • CODAIT 团队已经为超过 10 个开源项目做出了贡献。这些项目包括 Spark、Tensorflow、Keras、SystemML、Arrow、Bahir、Toree、Livy、Zeppelin、R4ML 和 Stocator。
  • 该团队有 17 名 Apache 项目提交者和众多贡献者,包括 Apache Spark、Apache Arrow、Apache SystemML、Apache Bahir、Apache Toree 和 Apache Livy 等项目。
  • 为 Apache Spark 提交了超过 900 个 JIRA 和超过 50,000 行代码,另外还为 Apache SystemML 提交了超过 65,000 行代码。
  • 该团队是 Apache Spark 主要版本中 Spark 机器学习的主要贡献者。
  • CODAIT 工程师与 IBM 内部对利用 Apache Spark 的超过 25 条生产线频繁互动并密切合作。
  • 目前,该团队已经参加了超过 100 场相关会议、会面、联合会议和其他集会。
  • 帮助为开源和企业人工智能开发人员建立发展重心!

    我们才刚刚起步!我们希望凝聚开源和企业开发人员的力量,共同建立一个重心。让我们借助一套标准工具和技术,朝着共同的人工智能复兴目标进发!

    相关链接

    本文翻译自:Creating a center of gravity around open source data and AI technologies(2018-03-20)

加入讨论