开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

中文语音相似度估计器

概述

中文语音相似度估计器(Chinese Phonetic Similarity Estimator)提供了一种按发音对汉字字符建立索引的语音算法。给定两个相同长度的中文单词,此模型可以确定两个单词之间的音距,并返回一些与给定词语接近的候选单词。该代码符合 ISO 7098:2015 中定义的以罗马拼音为指导的普通话语音原则。此模型基于 DimSim 模型

模型元数据

领域 应用 行业 框架 训练数据 输入数据格式
自然语言处理 文本聚类/语音学 社交媒体 Python N/A 中文文本(utf-8 编码)

参考资料

许可

组件 许可 链接
模型 GitHub 代码库 Apache 2.0 许可
模型权重 N/A N/A
模型代码(第三方) Apache 2.0 许可
测试资产 N/A N/A

此模型的可用部署选项

可以使用以下方式来部署此模型:

  • 作为来自 PyPi 的库在本地运行:遵循 GitHub 上的模型 README 文件中的操作说明。

  • 通过 Dockerhub 进行部署:

    docker run -it -p 5000:5000 codait/max-chinese-phonetic-similarity-estimator
    
  • 在 Red Hat OpenShift 上部署:

    遵循本教程中有关 OpenShift Web 控制台或 OpenShift Container Platform CLI 的操作说明,并指定 codait/max-chinese-phonetic-similarity-estimator 作为镜像名称。

  • 在 Kubernetes 上部署:

    kubectl apply -f https://raw.githubusercontent.com/IBM/MAX-Chinese-Phonetic-Similarity-Estimator/master/max-chinese-phonetic-similarity-estimator.yaml
    

    可以在此处找到有关如何将此 MAX 模型部署到 IBM Cloud 上的生产环境的更详细的教程。

  • 本地部署:遵循 GitHub 上的模型 README 文件中的操作说明。

用法示例

您可以测试或使用此模型

使用 cURL 测试模型

在部署模型后,可以在命令行中测试该模型。例如,如果在本地运行,请通过终端运行以下命令:

$ curl -X POST "http://localhost:5000/model/predict?first_word=%E5%A4%A7%E8%99%BE&second_word=%E5%A4%A7%E4%BE%A0&mode=simplifiedθ=1" -H  "accept: application/json"

您应该会看到与下面类似的 JSON 响应:

{
  "status": "ok",
  "predictions": [
    {
      "distance": "0.0002380952380952381",
      "candidates": [
        [
          "打下",
          "大虾",
          "大侠"
        ],
        [
          "打下",
          "大虾",
          "大侠"
        ]
      ]
    }
  ]
}

通过 Python 测试模型

通过终端打开 Python shell


$ python

通过 Python 运行以下命令来测试模型:

import dimsim

dist = dimsim.get_distance("大侠","大虾")
0.0002380952380952381

dist = dimsim.get_distance("大侠","大人")
25.001417183349876

dist = dimsim.get_distance(['da4','xia2'],['da4','xia1']], pinyin=True)
0.0002380952380952381

dist = dimsim.get_distance(['da4','xia2'],['da4','ren2']], pinyin=True)
25.001417183349876

在无服务器应用程序中测试模型

遵循在 IBM Cloud Functions 中利用深度学习教程中的操作说明,可以在无服务器应用程序中使用此模型。

链接

资源与贡献

如果您有兴趣为 Model Asset Exchange 项目做出贡献或有任何疑问,遵循此处的操作说明。

本文翻译自:Chinese Phonetic Similarity Estimator(2019-05-28)