[发明专利]模糊搜索优化方法、装置、电子设备和可读存储介质有效
申请号: | 202110943576.1 | 申请日: | 2021-08-17 |
公开(公告)号: | CN113641731B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 岳永鹏;周行;柴千祥 | 申请(专利权)人: | 成都知道创宇信息技术有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/31;G06F16/33;G06F40/205;G06F40/289 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何少岩 |
地址: | 610000 四川省成都市高新区中国(四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模糊 搜索 优化 方法 装置 电子设备 可读 存储 介质 | ||
本申请提供一种模糊搜索优化方法、装置、电子设备和可读存储介质,针对号码库中的各个已存号码,将已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词,再将已存号码进行倒序处理,得到第二类索引词。此外,将已存号码作为第三类索引词,并将至少一个第一类索引词、第二类索引词和第三类索引词,构成已存号码对应的待搜索词集。本方案中,可以按实际应用场景进行分词,避免现有的进行全量分词存在的占用过多存储空间的问题,且通过倒序处理,可在匹配时避免由于不同号码类别在前缀上的差异对匹配造成的干扰,如此,可在避免占用过多空间的基础上,保障后续的检索准确性、快捷性。
技术领域
本发明涉及计算机模糊搜索技术领域,具体而言,涉及一种模糊搜索优化方法、装置、电子设备和可读存储介质。
背景技术
在数据的搜索处理领域中,主要包括全文搜索方式和模糊搜索方式,其中,全文搜索方式主要是对每一个词建立一个索引,指明该词在词库中的位置以及出现的次数。当用户查询时,检索程序根据事先建立的索引进行查找,并将查找的结果反馈给用户。而模糊搜索方式允许被搜索信息和搜索提问之间存在一定的差异,即做到搜索内容和被匹配内容做到部分的匹配。
目前,在对于号码查询搜索处理中,由于号码的表达形式各种各样,对于查询检索造成困扰。现有的常用处理方式包括,例如将所有的号码进行标准化处理后进行存储,以供查询检索。这种方式需要明确知道各个号码所属的地区,否则难以做到准确的标准化处理。此外,还有采用利用如Elastic search的正则模糊搜索方式,这种方式存在搜索效率低下、搜索缓慢的缺陷。另外,还有采用n-gram的分词处理得到全量的分词结果,以供查询搜索的方式。这种方式会产生大量的额外数据,导致占用大量的存储空间的问题。
发明内容
本发明的目的包括,例如,提供了一种模糊搜索优化方法、装置、电子设备和可读存储介质,其能够避免占用过多存储资源的情况下保障检索的准确性和快捷性。
本发明的实施例可以这样实现:
第一方面,本发明提供一种模糊搜索优化方法,所述方法包括:
针对号码库中的各个已存号码,将所述已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词;
将所述已存号码进行倒序处理,得到第二类索引词;
将所述已存号码作为第三类索引词,并将所述至少一个第一类索引词、第二类索引词和第三类索引词,构成所述已存号码对应的待搜索词集。
在可选的实施方式中,所述方法还包括:
获取待搜索号码;
将所述待搜索号码进行倒序处理,得到倒序号码;
基于所述待搜索号码和倒序号码,对所述号码库中各所述待搜索词集包含的索引词进行匹配,得到匹配结果。
在可选的实施方式中,各所述已存号码包含多个元素;
所述将所述已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词的步骤之前,所述方法还包括:
识别出所述已存号码中包含的多个元素中的字符元素;
将所述已存号码中除各个字符元素之外的其他元素删除;
将删除处理后剩余的各个字符元素按原本在所述已存号码中的顺序进行拼接组合。
在可选的实施方式中,所述将所述已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词的步骤,包括:
将所述已存号码按从右到左的顺序,依次按预设最小位数到预设最大位数的分词方式对所述已存号码进行移位分词处理,得到至少一个第一类索引词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都知道创宇信息技术有限公司,未经成都知道创宇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110943576.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:压装装置
- 下一篇:一种基于多层神经网络和支持向量机的随机信号识别方法