[发明专利]字符串相似度确定方法、装置、程序产品和相关设备在审
| 申请号: | 202310042203.6 | 申请日: | 2023-01-12 |
| 公开(公告)号: | CN116029304A | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 张子恒;李文琪 | 申请(专利权)人: | 腾讯云计算(长沙)有限责任公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F18/22 |
| 代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 徐明霞 |
| 地址: | 410000 湖南省长沙市岳麓区天顶街道环*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 字符串 相似 确定 方法 装置 程序 产品 相关 设备 | ||
1.一种字符串相似度确定方法,其特征在于,包括:
获取第一字符串和第二字符串,所述第一字符串中包括第一词语,所述第二字符串中包括第二词语;
从所述第一字符串中的所述第一词语中选择一个未被比较过的词语作为当前待比较词语;
将所述当前待比较词语与所述第二字符串中的第二词语分别进行语义比较,以确定所述第二字符串中是否存在与所述当前待比较词语语义相反的第二词语;
通过语义比较确定所述第二字符串中存在与所述当前待比较词语语义相反的第二词语,则确定所述第一字符串与所述第二字符串的相似度为零;
通过语义比较确定所述第二字符串中不存在与所述当前待比较词语语义相反的第二词语,则从所述第一字符串中选择一个未被比较过的第一词语作为所述当前待比较词语,以通过第一词语的遍历确定所述第二字符串中是否存在与所述第一字符串中的第一词语语义相反的第二词语;
在遍历所述第一字符串中的所述第一词语后确定所述第二字符串中不存在与所述第一字符串中的第一词语语义相反的第二词语,则获取所述第一字符串与所述第二字符串的编辑距离相似度;
将所述第一字符串与所述第二字符串的编辑距离相似度作为所述第一字符串与所述第二字符串的相似度。
2.根据权利要求1所述方法,其特征在于,获取所述第一字符串与所述第二字符串的编辑距离相似度,包括:
获取切除词,其中所述切除词是目标场景下的高频词;
确定所述第一字符串和所述第二字符串均包括所述切除词;
将所述第一字符串中的所述切除词删除,获得切除后第一字符串;
将所述第二字符串中的所述切除词删除,获得切除后第二字符串;
获取所述切除后第一字符串与所述切除后第二字符串的编辑距离相似度;
将所述切除后第一字符串与所述切除后第二字符串的编辑距离相似度,作为所述第一字符串与所述第二字符串的编辑距离相似度。
3.根据权利要求2所述方法,其特征在于,获取切除词,包括:
获取所述目标场景下的第二词库;
按照不同步长对所述第二词库中的词进行分词,获得第四候选词;
在所述第四候选词中筛选出具有语言含义且词频大于第二阈值的第五候选词;
对所述第五候选词添加延长词,获得第六候选词;
在所述第六候选词中确定具有语言含义且词频大于第三阈值的第七候选词;
根据所述切除词确定所述切除词。
4.根据权利要求1所述方法,其特征在于,所述第一字符串还包括第一数字,所述第二字符串还包括第二数字;其中,获取所述第一字符串与所述第二字符串的编辑距离相似度,包括:
从所述第一字符串的所述第一数字中选择一个未被比较过的数字作为当前待比较数字;
将所述当前待比较数字与所述第二字符串中的第二数字分别进行数值比较,以确定所述第二字符串中是否存在与所述当前待比较数字数值相等的第二数字;
如果所述第二字符串中不存在与所述当前待比较数字数值相等的第二数字,则确定所述第一字符串与所述第二字符串的相似度为零。
5.根据权利要求4所述方法,其特征在于,获取所述第一字符串与所述第二字符串的编辑距离相似度,还包括:
如果所述第二字符串中存在与所述当前待比较数字的数值相等的第二数字,则继续从所述第一字符串的所述第一数字中选择一个未被比较过的数字作为所述当前待比较数字,以通过第一数字的遍历确定所述第二字符串中是否存在与所述第一字符串中的第一数字数值相同的第二数字;
如果遍历所述第一字符串的所述第一数字后,确定所述第二字符串中不存在与所述第一字符串中的第一数字数值相等的第二数字,则获取所述第一字符串与所述第二字符串的编辑距离相似度,以便将所述第一字符串与所述第二字符串的编辑距离相似度作为所述第一字符串与所述第二字符串的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯云计算(长沙)有限责任公司,未经腾讯云计算(长沙)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310042203.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带保护伞的鞘管
- 下一篇:拼车收垃圾方法、装置、电子设备和计算机可读介质





