本文由 Animesh SinghClive Cox 共同编著。


正如我在上一篇博客中所概述,训练深度神经网络模型需要一个经过高度调优的系统,其中包含软件、驱动程序、计算、内存、网络和存储资源。为了应对这些挑战,我们启动了一个开源项目 Fabric for Deep Learning (FfDL)。FfDL 提供的产品栈消除了这些担忧,使数据科学家能够使用他们心仪的深度学习框架 (如 Caffe、Torch 和 TensorFlow 等)在云中执行大规模训练工作。

企业级 AI 生命周期

但是企业级 AI 生命周期还包括部署和维护这些模型。Watson Studio 使用了 FfDL 核心(FfDL core)来实现部分企业级 AI 生命周期的训练,除了用于收集和分析数据的服务之外,它还提供了部署和维护模型的选项。Watson Studio 还提供了使用神经网络建模器( Neural Network Modeler,简称NNM),这是一个可视的拖放工具,用于创建神经架构层并分配超参数。

模型维护: 对模型训练的补充

在开源方面,为了完善 FfDL 训练模型的部署,我们与 Seldon 团队携手,将 FfDL 与 Seldon 机器学习部署平台相集成。除了部署之外,Seldon 还允许通过 REST 或 gRPC 端点公开机器学习模型。可以使用自定义的 Kubernetes 资源 JSON/YAML 文件来描述模型、路由器(例如 AB 测试和多臂赌博机)、转换器(例如特征标准化)和组合器(例如集合器)的运行时图表,然后进行部署、扩展和管理。

这意味着,您可以使用 Helm 图表在同一个 Kubernetes 基础架构上部署 FfDL 和 Seldon,然后将 FfDL 训练模型推送到 Seldon 机器学习部署平台。要在 Seldon 上部署 FfDL 训练模型,只需执行以下操作:

  1. 将模型运行时推理组件打包为 Docker 容器
  2. 将运行时图表描述为自定义 Kubernetes SeldonDeployment 资源
  3. 使用 Kubernetes API 来应用该图表

可以在 Readme 文件 使用 Seldon 部署 FfDL 训练模型详细了解如何部署 FfDL 训练模型。

立即行动!

除了已经添加的关于 TensorFlow 的示例之外,我们正在努力扩展该示例,以便添加 PyTorch 和 Caffe 模型。我们还使用 Fashion MNIST 数据集创建了一个端到端的演示管道

立即开始使用 FfDL 和 Seldon。使用您认为有用的功能来部署、使用和扩展它们。期待您的反馈和代码提交!

本文翻译自:Serve it hot! Deploy your FfDL trained models using Seldon(2018-06-12)

加入讨论