[发明专利]字符串相似度确定方法、装置、程序产品和相关设备在审
申请号: | 202310042203.6 | 申请日: | 2023-01-12 |
公开(公告)号: | CN116029304A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 张子恒;李文琪 | 申请(专利权)人: | 腾讯云计算(长沙)有限责任公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F18/22 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 徐明霞 |
地址: | 410000 湖南省长沙市岳麓区天顶街道环*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符串 相似 确定 方法 装置 程序 产品 相关 设备 | ||
本公开提供一种字符串相似度确定方法、装置、程序产品和相关设备,涉及人工智能技术领域。上述方法包括:获取第一字符串和第二字符串;从第一字符串中的第一词语中选择一个未被比较过的词语作为当前待比较词语;将当前待比较词语与第二字符串中的第二词语分别进行语义比较;如果第二词语与当前待比较词语语义相反,则确定第一字符串与第二字符串的相似度为零,否则继续选择一个未被比较过的第一词语作为当前待比较词语,继续进行语义比较;如果在遍历第一词语后确定第二字符串中不存在与第一词语语义相反的词语,则将第一字符串与第二字符串的编辑距离相似度作为第一字符串与第二字符串的相似度。上述方法可以提高字符串相似度确定的准确性。
技术领域
本公开涉及人工智能技术领域,尤其涉及一种字符串相似度确定方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
编辑距离算法因为具有计算简单、可解释性强的特点,往往会被用于相似度计算。但是,由于编辑距离算法的匹配方式笼统的将字符串中的所有成分等价对待,可能会导致实际含义相差巨大的字符串获得很高的相似度分数,进而造成对字符串相似结果的干扰。
因此,本申请要解决的技术问题是如何提高字符串相似度计算的准确性。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种字符串相似度确定方法、装置、电子设备、计算机可读存储介质、计算机程序产品,能够提高字符串相似度确定的准确性。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供了一种字符串相似度确定方法,包括:获取第一字符串和第二字符串,所述第一字符串中包括第一词语,所述第二字符串中包括第二词语;从所述第一字符串中的所述第一词语中选择一个未被比较过的词语作为当前待比较词语;将所述当前待比较词语与所述第二字符串中的第二词语分别进行语义比较,以确定所述第二字符串中是否存在与所述当前待比较词语语义相反的第二词语;通过语义比较确定所述第二字符串中存在与所述当前待比较词语语义相反的第二词语,则确定所述第一字符串与所述第二字符串的相似度为零;通过语义比较确定所述第二字符串中不存在与所述当前待比较词语语义相反的第二词语,则从所述第一字符串中选择一个未被比较过的第一词语作为所述当前待比较词语,以通过第一词语的遍历确定所述第二字符串中是否存在与所述第一字符串中的第一词语语义相反的第二词语;在遍历所述第一字符串中的所述第一词语后确定所述第二字符串中不存在与所述第一字符串中的第一词语语义相反的第二词语,则获取所述第一字符串与所述第二字符串的编辑距离相似度;将所述第一字符串与所述第二字符串的编辑距离相似度作为所述第一字符串与所述第二字符串的相似度。
本公开实施例提供了一种字符串相似度确定装置,包括:字符串获取模块,用于获取第一字符串和第二字符串,所述第一字符串中包括第一词语,所述第二字符串中包括第二词语;当前待比较词语获取模块,用于从所述第一字符串中的所述第一词语中选择一个未被比较过的词语作为当前待比较词语;比较模块,用于将所述当前待比较词语与所述第二字符串中的第二词语分别进行语义比较,以确定所述第二字符串中是否存在与所述当前待比较词语语义相反的第二词语;相似度为零判断模块,用于通过语义比较确定所述第二字符串中存在与所述当前待比较词语语义相反的第二词语,则确定所述第一字符串与所述第二字符串的相似度为零;当前待比较词语更新模块,用于通过语义比较确定所述第二字符串中不存在与所述当前待比较词语语义相反的第二词语,则从所述第一字符串中选择一个未被比较过的第一词语作为所述当前待比较词语,以通过第一词语的遍历确定所述第二字符串中是否存在与所述第一字符串中的第一词语语义相反的第二词语;编辑距离相似度确定模块,用于在遍历所述第一字符串中的所述第一词语后确定所述第二字符串中不存在与所述第一字符串中的第一词语语义相反的第二词语,则获取所述第一字符串与所述第二字符串的编辑距离相似度;字符串相似度确定模块,用于将所述第一字符串与所述第二字符串的编辑距离相似度作为所述第一字符串与所述第二字符串的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯云计算(长沙)有限责任公司,未经腾讯云计算(长沙)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310042203.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带保护伞的鞘管
- 下一篇:拼车收垃圾方法、装置、电子设备和计算机可读介质