开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

IBM Developer 博客

通过 IBM Developer 关注最新动态并获取信息

新成立的 LF AI and Data 基金会可以为希望使用开源 AI 和数据项目并为之做出贡献的开发者和数据研究员提供独立事实来源。


Linux 基金会下属的人工智能基金会(简称为 LF AI)已与 ODPi(其专注于企业中的大数据,包括数据管理、商业智能和数据科学培训)进行了合并。合并后的基金会称为 LF AI and Data。IBM 相信此举对 AI 和数据开源领域非常有利,新成立的 LF AI and Data 基金会将为更强大、更安全的开源 AI 和数据项目铺平道路。

为什么它很重要?

在全球范围内,有越来越多的技术依赖开源软件和数据。开源 AI 软件开发推动了 AI 模式识别技术(包括图像识别、语音识别和文本中的实体提取)的发展,这些技术之所以成为可能,得益于研究人员能够使用开放数据集和开源软件对系统和方法进行基准测试和比较。

您或您的组织创造的数据不仅会影响 AI,也会受 AI 影响。工作效率和服务质量越来越依赖于企业和社会中由数据驱动的 AI 系统。这些 AI 系统的核心都主要基于开源软件和数据集。

LF AI and Data 提供了一个可获取开源 AI 信息的地方

开源 AI 和数据的迅猛发展,让 AI 开发者和数据研究员感到措手不及。而 LF AI and Data 不仅提供了主要信息来源,还为开源项目带来了社区投资。

例如,LF AI Landscape 工具可以连接近 300 个 AI 相关开源社区项目,其中包括 TensorFlow、PyTorch、scikit-learn 和许多其他项目,这些项目每两周就会更新约一百万行代码。

每个项目在 GitHub 上都有自己的信息卡,其中包括像 GitHub 上持续关注的数量这样的信息以及负责托管代码存储库的组织的相关信息。目前,这些项目总共拥有超过 150 万个持续关注;具有项目的上市公司的总市值高达 13.94 万亿美元;而具有项目的创业公司的资金总额为 539 亿美元(基于 Crunchbase 提供的数据)。如果您仔细核算的话,这些数字可能还会更高!

LF AI landscape

基金会提供的数据和 AI 相关项目持续增多,每月都会增加几个新的热门项目。它将项目分为十二个类别:数据(最大类别)、模型(第二大类别)、机器学习、深度学习、强化学习、编程、Notebook 环境、可信和负责任的 AI、分布式计算、安全和隐私、自然语言处理以及教育。

为什么它对 IBM 开放技术方法很重要?

在 IBM,我们对合并感到特别兴奋,因为与其他 LF Ai 成员ODPi 成员一样,我们也认为合并是对未来的一种投资,它有助于建立行业标准的开源数据和 AI 基础架构。IBM 支持开源的历史悠久,我们坚信在基金会中采用在多供应商管理和供应商中立的资产所有权基础上对项目进行开放式管理,是项目实现长期可持续发展的最佳选择。

迄今为止,IBM 向 LFAI 和 ODPI 提供的关键项目(现在由 LF AI and Data 托管)包括:

  • Egeria(已完成):每个 AI 项目都会生成大量的元数据。 Egeria 提供了 Apache 2.0 许可的开放式元数据和管理系统、框架、API、事件有效负载和交换协议,使得工具、引擎和平台能够交换元数据。这可帮助用户从数据中获得最大价值,同时还可确保对数据进行适当的管理。
  • 可信 AI(其中 3 个正在孵化):只有当 AI 既准确又可信时,它才会在企业和社会中得到广泛应用。

    • AI Fairness 360(正在孵化):AI Fairness 360 工具包是一个可扩展的开源库,其中包括由研究团队开发的各种技术,可在整个 AI 应用程序生命周期中帮助检测和减轻机器学习模型的偏差。AI Fairness 360 软件包有 Python 和 R 两种版本。
    • AI Explainability 360(正在孵化):AI Explainability 360 工具包是一个开源库,支持数据集和机器学习模型的可解释性和可解读性。AI Explainability 360 Python 软件包中包含一套全面的算法,涵盖了不同的解释维度以及代理可解释性指标。
    • Adversarial Robustness Toolbox (ART)(正在孵化):Adversarial Robustness Toolbox (ART) 是一个可确保机器学习安全性的 Python 库。借助 ART 提供的工具,研发人员可以防御和评估机器学习模型和应用程序,以便应对入侵、毒化、提取和推理的对抗性威胁。ART 支持所有的常见机器学习框架(TensorFlow、Keras、PyTorch、MXNet、scikit-learn、XGBoost、LightGBM、CatBoost、GPy 等)、所有数据类型(图像、表格、音频、视频等)以及机器学习任务(分类、对象检测、语音识别、生成、认证等)。
  • OpenDS4All(正在孵化):OpenDS4All 致力于加快在学术机构中创办数据科学课程。虽然网上提供了很多的数据科学资料(包括在线课程),但我们认识到,学生学习(或机构传授)内容的最佳方式是将讲座、朗诵或参与课堂活动和动手作业融为一体的学院课程形式。OpenDS4All 试图填补这一市场空白。 其目标是提供建议、幻灯片集、Jupyter Notebook 样本以及有关创建、自定义和提供数据科学和数据工程培训的其他材料。该项目托管了一些教育模块,它们可用作数据科学课程的构建模块。

从可信的 AI 项目到用于管理开放式元数据的 Egeria,IBM 看到了通过投资开源基金会来托管对 IBM 产品至关重要的项目的价值。 IBM Cloud Pak for Data 基于行业标准的开源基础架构,此基础架构中的专有扩展提供了一个完全集成的 Red Hat 开放数据中心,这是一个超大的集合,可用于在 OpenShift 上运行 AI 工作负载。Red Hat Marketplace 拥有越来越多的生态系统合作伙伴(例如 Anaconda),这些合作伙伴也提供了现成的数据和 AI 管道组件。新的基金会将帮助支持那些可增强我们最重要的数据和 AI 产品的开源项目。

参与方式及原因

对于想要在 LF AI and Data 中托管项目成为成员的组织,该网站提供了易于访问的链接以及有关初始步骤的说明。对于想要在项目中提高技术知名度的开发者,可查看 LF AI and Data 托管的现有项目,并加入社区 Slack 工作空间

对于个人和组织而言,Linux Foundation AI and Data 就是一个开放社区,在将您的数据变为 AI 的过程中,您可以向社区成员求助,也可以在其中找到有用的信息。欢迎加入 LF AI and Data – 从加入 Slack 工作空间开始 – 与我们一起踏上这一激动人心的旅程!

本文翻译自:Open Source AI and Data: How best to keep up with rapid advances?(2020-10-26)