[发明专利]相似性确定方法、装置及终端有效
| 申请号: | 201510882468.2 | 申请日: | 2015-12-03 |
| 公开(公告)号: | CN105446957B | 公开(公告)日: | 2018-07-20 |
| 发明(设计)人: | 汪平仄;张涛;龙飞 | 申请(专利权)人: | 小米科技有限责任公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 鞠永善 |
| 地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本公开关于一种相似性确定方法、装置及终端,属于自然语言处理领域。包括:分别对第一字符串和第二字符串进行分词,得到分别包括至少一个词的第一序列和第二序列;根据预先定义的编辑距离算法及第一序列和第二序列确定第一字符串和第二字符串时之间的编辑距离;根据编辑距离及由第一序列向第二序列变换所做的各操作的信息确定第一字符串与第二字符串之间的相似性。通过将第一字符串和第二字符串分词为第一序列和第二序列,使在确定编辑距离时,是基于字符串中的词实现的,而并非基于字符串中的字符实现的,而字符串中的各个词可能包括至少一个字符,从而使根据编辑距离确定的相似性结合了字符串中各个字符之间的相关性,使确定的相似性更准确。 | ||
| 搜索关键词: | 相似性 确定 方法 装置 终端 | ||
【主权项】:
1.一种相似性确定方法,其特征在于,所述方法包括:分别对第一字符串和第二字符串进行分词,得到第一序列和第二序列,所述第一序列和所述第二序列分别包括至少一个词;根据预先定义的编辑距离算法及所述第一序列和所述第二序列,确定所述第一字符串和所述第二字符串之间的编辑距离;根据所述编辑距离及由所述第一序列向所述第二序列变换所做的各操作的信息,确定所述第一字符串与所述第二字符串之间的相似性,所述根据所述编辑距离及由所述第一序列向所述第二序列变换所做的各操作的信息,确定所述第一字符串与所述第二字符串之间的相似性,包括:获取由所述第一序列向所述第二序列变换时所进行的各操作信息中的替换操作信息;根据所述各替换操作信息确定配对数,其中,所述配对数是指同时存在于所述第一序列和所述第二序列中的两个词的个数;根据所述编辑距离、所述配对数及各操作的操作代价、所述第一序列中的词个数、所述第二序列中的词个数,确定所述第一字符串与所述第二字符串之间的相似性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510882468.2/,转载请声明来源钻瓜专利网。
- 上一篇:日志内容审核优化方法及装置
- 下一篇:一种汉语概念复合块标注库规范化处理方法





