[发明专利]相似性确定方法、装置及终端有效
| 申请号: | 201510882468.2 | 申请日: | 2015-12-03 |
| 公开(公告)号: | CN105446957B | 公开(公告)日: | 2018-07-20 |
| 发明(设计)人: | 汪平仄;张涛;龙飞 | 申请(专利权)人: | 小米科技有限责任公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 鞠永善 |
| 地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 相似性 确定 方法 装置 终端 | ||
1.一种相似性确定方法,其特征在于,所述方法包括:
分别对第一字符串和第二字符串进行分词,得到第一序列和第二序列,所述第一序列和所述第二序列分别包括至少一个词;
根据预先定义的编辑距离算法及所述第一序列和所述第二序列,确定所述第一字符串和所述第二字符串之间的编辑距离;
根据所述编辑距离及由所述第一序列向所述第二序列变换所做的各操作的信息,确定所述第一字符串与所述第二字符串之间的相似性,
所述根据所述编辑距离及由所述第一序列向所述第二序列变换所做的各操作的信息,确定所述第一字符串与所述第二字符串之间的相似性,包括:
获取由所述第一序列向所述第二序列变换时所进行的各操作信息中的替换操作信息;
根据所述各替换操作信息确定配对数,其中,所述配对数是指同时存在于所述第一序列和所述第二序列中的两个词的个数;
根据所述编辑距离、所述配对数及各操作的操作代价、所述第一序列中的词个数、所述第二序列中的词个数,确定所述第一字符串与所述第二字符串之间的相似性。
2.根据权利要求1所述的方法,其特征在于,所述根据所述编辑距离、所述配对数及各操作的操作代价、所述第一序列中的词个数、所述第二序列中的词个数,确定所述第一字符串与所述第二字符串之间的相似性,所述各操作包括替换操作、交换操作,包括:
根据所述编辑距离、所述配对数及替换操作的操作代价、交换操作的操作代价,确定所述第一字符串与所述第二字符串之间的最小语义编辑距离;
对所述最小语义编辑距离进行归一化,得到归一化结果;
根据所述归一化结果确定所述第一字符串与所述第二字符串之间的相似性。
3.根据权利要求1所述的方法,其特征在于,所述根据所述编辑距离、所述配对数及各操作的操作代价、所述第一序列中的词个数、所述第二序列中的词个数,确定所述第一字符串与所述第二字符串之间的相似性,所述各操作包括替换操作、交换操作、插入操作、删除操作中的至少其中之一,包括:
根据所述编辑距离、所述配对数及替换操作的操作代价、交换操作的操作代价,确定所述第一字符串与所述第二字符串之间的第一语义编辑距离;
根据插入操作的操作代价和删除操作的操作代价中的一个、替换操作的操作代价及所述第一序列中的词个数、所述第二序列中的词个数,确定所述第一字符串与所述第二字符串之间的第二语义编辑距离;
根据所述第一语义编辑距离和所述第二语义编辑距离,确定所述第一字符串与所述第二字符串之间的相似性。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
根据替换操作与交换操作之间的关系,确定替换操作的操作代价及交换操作的操作代价;
根据替换操作与插入操作及删除操作之间的关系,确定插入操作的操作代价、删除操作的操作代价及替换操作的操作代价。
5.根据权利要求4中任一项所述的方法,其特征在于,所述方法还包括:
根据替换操作与交换操作之间的关系,确定2*替换操作的操作代价>交换操作的操作代价;
根据替换操作与插入操作及删除操作之间的关系,确定插入操作的操作代价+删除操作的操作代价>替换操作的操作代价。
6.根据权利要求4中所述的方法,其特征在于,所述方法还包括:
根据插入操作与删除操作之间的关系,确定插入操作的操作代价等于删除操作的操作代价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510882468.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:日志内容审核优化方法及装置
- 下一篇:一种汉语概念复合块标注库规范化处理方法





