这篇文章由 Animesh SinghNicholas PngTommy LiVinod Iyengar.共同撰写。


像 TensorFlow、PyTorch、Caffe、MXNet 和 Chainer 这样的深度学习框架减少了训练和使用深度学习模型所需的工作量和技能。但对于 AI 开发人员和数据科学家而言,仍然难以采用一致的方式设置和使用这些框架来训练和提供分布式模型。

开源项目 Fabric for Deep Learning (FfDL) 为 AI 开发人员和数据科学家提供了一种一致方式,使他们能够在 Kubernetes 上将深度学习作为一种服务提供,并利用 Jupyter 笔记本对使用这些多重框架编写的模型执行分布式深度学习训练。

现在,FfDL 发布了一项新增功能,可以将深度学习训练能力与最先进的机器学习方法结合在一起。

利用最佳机器学习能力来加强深度学习

如果您想要通过 FfDL 尝试机器学习算法,我们很高兴向您介绍 H2O.ai,这是 FfDL 堆栈的最新成员。H2O-3 是 H2O.ai 的开源平台,也是一种内存中、分布式、可扩展的机器学习和预测分析平台,可用于基于大数据构建机器学习模型。H2O-3 提供了广泛的算法库,如 Distributed Random Forests、XGBoost 和 Stacked Ensembles,以及 AutoML(这是一个功能强大的工具,适用于数据科学和机器学习经验较少的用户)。

在数据清理或“整理”之后,在训练强大预测模型的过程中,最基本的一个步骤是正确调整模型。众所周知,如果不是专家,想要正确调整深度神经网络将会非常困难。在这方面,AutoML 是一个非常有价值的工具。它提供了一个直观界面,可以自动训练大量候选模型,并根据用户首选的评分方法来选择性能最高的模型。

通过结合使用 FfDL 与 H2O-3,各种经验水平的用户都能访问数据科学。您只需将 FfDL 部署到 Kubernetes 集群并向 FfDL 提交训练作业即可。在幕后,FfDL 负责设置 H2O-3 环境、运行您的训练作业并流式传输训练日志,以便您监控和调试模型。由于 FfDL 还支持具有 H2O-3 的多节点集群,因此您可以在所有 Kubernetes 节点上无缝地横向扩展 H2O-3 训练作业。在完成模型训练后,可以将模型本地保存到 FfDL 上或保存到云对象存储中,以便稍后从中获取模型来提供推理服务。

立即在 FfDL 上试用 H2O!

您可以在开源FfDL 自述文件和指南中找到有关如何在 FfDL 上训练 H2O 模型的详细信息。利用有用的功能部署、使用和扩展这些模型。期待您的反馈和代码提交!

本文翻译自:H2O-3 on FfDL: Bringing deep learning and machine learning closer together(2018-06-25)

加入讨论