[发明专利]一种快速检索相似字符串的方法及系统有效

申请号：	201710558849.4	申请日：	2017-07-11
公开（公告）号：	CN109241124B	公开（公告）日：	2023-03-10
发明（设计）人：	李光曦	申请（专利权）人：	沪江教育科技（上海）股份有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/901
代理公司：	上海硕力知识产权代理事务所(普通合伙) 31251	代理人：	郭桂峰
地址：	201203 上海市浦东***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种快速检索相似字符串方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种快速检索相似字符串的方法及系统，其中，所述方法包括：读取已有的预设数量的文本条目，并针对每条文本条目，将所述文本条目拆分为若干词组，并为每个词组分配对应的权重值；基于分配的权重值，对拆分后的词组进行哈希运算，以得到所述文本条目对应的第一哈希字符串；对所述第一哈希字符串进行塌缩处理，以得到长度符合指定条件的第二哈希字符串；对所述第二哈希字符串建立前缀树，并基于所述前缀树从所述已有的预设数量的文本条目中检索出与目标字符串相似的字符串。本申请提供的技术方案，能够极大提高字符串检索的速度。

技术领域＃

本申请涉及信息处理技术领域，特别涉及一种快速检索相似字符串的方法及系统。

背景技术＃

在当前的信息处理技术领域中，经常需要在海量的文本条目中查询与目标字符串相似的字符串，现有的算法是对目标字符串与海量的文本条目中的每个字符串计算编辑距离，并将编辑距离小于某个阈值的所有字符串列为相似的字符串。

现有技术中的这种方法时间复杂度极高，在数十万文本条目的情况下往往性能无法到达商用要求。除需要进行对比的文本条目数外，现有算法的时间复杂度还与所有文本条目的字符串平均长度相关，无法应用到如今大数据量的场景中。

发明内容＃

本申请实施方式的目的在于提供一种快速检索相似字符串的方法及系统，能够极大提高字符串检索的速度。

为实现上述目的，本申请一方面提供一种快速检索相似字符串的方法，所述方法包括：

读取已有的预设数量的文本条目，并针对每条文本条目，将所述文本条目拆分为若干词组，并为每个词组分配对应的权重值；

基于分配的权重值，对拆分后的词组进行哈希运算，以得到所述文本条目对应的第一哈希字符串；

对所述第一哈希字符串进行塌缩处理，以得到长度符合指定条件的第二哈希字符串；

对所述第二哈希字符串建立前缀树，并基于所述前缀树从所述已有的预设数量的文本条目中检索出与目标字符串相似的字符串。