开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

词嵌入生成器

概述

词嵌入生成器(Word Embedding Generator)支持您在经过预处理的维基百科文本语料库上训练 Swivel 算法。机器学习算法通常需要数字输入,当数据科学家想要使用文本创建机器学习模型时,他们必须先找到一种将文本表示为数字向量(这些向量称为词嵌入)的方法。Swivel 算法是使用共生矩阵且基于频率的词嵌入。这里的原理是,含义相似的词往往会在文本语料库中同时出现。因此,含义相似的词将具有比不相关的词更接近的向量表示。

有关在您自己的文本语料库上生成词嵌入的操作说明,可查看 TensorFlow 模型代码库 中的说明。

模型元数据

领域 应用 行业 框架 训练数据 输入数据格式
自然语言 词嵌入 通用 TensorFlow 任何文本语料库

参考资料

许可

组件 许可 链接
模型 GitHub 代码库 Apache 2.0 许可
模型代码(第三方) Apache 2.0 TensorFlow 模型
数据 CC BY-SA 3.0 维基百科文本转储

可用于训练此模型的选项

  • 在 IBM Cloud – Watson Machine Learning 上训练:遵照 GitHub README 中的说明进行操作

资源和贡献

如果您有兴趣为 Model Asset Exchange 项目做贡献或有任何疑问,按照此处的说明进行操作。

本文翻译自:Word Embedding Generator(2018-09-21)