概述
中文语音相似度估计器(Chinese Phonetic Similarity Estimator)提供了一种按发音对汉字字符建立索引的语音算法。给定两个相同长度的中文单词,此模型可以确定两个单词之间的音距,并返回一些与给定词语接近的候选单词。该代码符合 ISO 7098:2015 中定义的以罗马拼音为指导的普通话语音原则。此模型基于 DimSim 模型。
模型元数据
领域 | 应用 | 行业 | 框架 | 训练数据 | 输入数据格式 |
---|---|---|---|---|---|
自然语言处理 | 文本聚类/语音学 | 社交媒体 | Python | N/A | 中文文本(utf-8 编码) |
参考资料
- ALi, Min、Danilevsky, Marina、Noeman, Sara 和 Li, Yunyao,“DIMSIM: An Accurate Chinese Phonetic Similarity Algorithm Based on Learned High Dimensional Encoding”,出自第 22 届计算自然语言学习大会会议记录(2018 年)。
- DimSim GitHub 代码库
许可
组件 | 许可 | 链接 |
---|---|---|
模型 GitHub 代码库 | Apache 2.0 | 许可 |
模型权重 | N/A | N/A |
模型代码(第三方) | Apache 2.0 | 许可 |
测试资产 | N/A | N/A |
此模型的可用部署选项
可以使用以下方式来部署此模型:
作为来自 PyPi 的库在本地运行:遵循 GitHub 上的模型 README 文件中的操作说明。
通过 Dockerhub 进行部署:
docker run -it -p 5000:5000 codait/max-chinese-phonetic-similarity-estimator
在 Red Hat OpenShift 上部署:
遵循本教程中有关 OpenShift Web 控制台或 OpenShift Container Platform CLI 的操作说明,并指定
codait/max-chinese-phonetic-similarity-estimator
作为镜像名称。在 Kubernetes 上部署:
kubectl apply -f https://raw.githubusercontent.com/IBM/MAX-Chinese-Phonetic-Similarity-Estimator/master/max-chinese-phonetic-similarity-estimator.yaml
本地部署:遵循 GitHub 上的模型 README 文件中的操作说明。
用法示例
您可以测试或使用此模型
使用 cURL 测试模型
在部署模型后,可以在命令行中测试该模型。例如,如果在本地运行,请通过终端运行以下命令:
$ curl -X POST "http://localhost:5000/model/predict?first_word=%E5%A4%A7%E8%99%BE&second_word=%E5%A4%A7%E4%BE%A0&mode=simplifiedθ=1" -H "accept: application/json"
您应该会看到与下面类似的 JSON 响应:
{
"status": "ok",
"predictions": [
{
"distance": "0.0002380952380952381",
"candidates": [
[
"打下",
"大虾",
"大侠"
],
[
"打下",
"大虾",
"大侠"
]
]
}
]
}
通过 Python 测试模型
通过终端打开 Python shell
$ python
通过 Python 运行以下命令来测试模型:
import dimsim
dist = dimsim.get_distance("大侠","大虾")
0.0002380952380952381
dist = dimsim.get_distance("大侠","大人")
25.001417183349876
dist = dimsim.get_distance(['da4','xia2'],['da4','xia1']], pinyin=True)
0.0002380952380952381
dist = dimsim.get_distance(['da4','xia2'],['da4','ren2']], pinyin=True)
25.001417183349876
在无服务器应用程序中测试模型
遵循在 IBM Cloud Functions 中利用深度学习教程中的操作说明,可以在无服务器应用程序中使用此模型。
链接
资源与贡献
如果您有兴趣为 Model Asset Exchange 项目做出贡献或有任何疑问,遵循此处的操作说明。
本文翻译自:Chinese Phonetic Similarity Estimator(2019-05-28)