[发明专利]一种支持语义联想的轻量级文本模糊搜索的方法有效
申请号: | 201911331527.1 | 申请日: | 2019-12-21 |
公开(公告)号: | CN111125308B | 公开(公告)日: | 2023-02-21 |
发明(设计)人: | 裴正奇;黄梓忱;段必超;段朦丽;朱斌斌 | 申请(专利权)人: | 深圳前海黑顿科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/247;G06F40/289;G06F40/30 |
代理公司: | 北京化育知识产权代理有限公司 11833 | 代理人: | 涂琪顺 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 语义 联想 轻量级 文本 模糊 搜索 方法 | ||
1.一种支持语义联想的轻量级文本模糊搜索的方法,其特征在于,所述搜索方法包括以下步骤:
S1、技术场景建模,文本模糊搜索问题可转换为在长文本中查询短文本的问题,长文本与短文本均为一连串的字符序列;
S2、语义联想图谱,为保证运算的轻量,提前搭建语义联想图谱并将之存储以供直接调用,而非现场再进行运算;
S3、模糊搜索方案,给定长文本S={s1,s2,s3,…sn},给定搜索请求Q={q1,q2,q3,…qm};
S4、搜索任务自动划分,对于篇幅较大的长文本S,可以对其进行自动的任务划分处理,根据特定的终止符,对长文本S进行分段处理,之后逐段进行3的运算;
S5、内部加速与多线程加速,对于S3中的算法方案的各个环节,进行内部加速处理;
S6、接口封装,为便于此文本模糊搜索模块的灵活应用,可将其以接口产品的形式进行封装,其输入参数格式如下:bluE(S,Q,autoSplit,isImagine,stop_words),其中autoSplit、isImagine均为布尔类型的数值,autoSplit决定其是否采取自动化任务划分的运行机制,isImagine决定是否开启联想模式,stop_words为autoSplit模式中自定义的终止符。
2.根据权利要求1所述的一种支持语义联想的轻量级文本模糊搜索的方法,其特征在于,所述S1中的字符包括汉字、英文字母、数字和特殊字符。
3.根据权利要求1所述的一种支持语义联想的轻量级文本模糊搜索的方法,其特征在于,所述S3中模糊搜索方案取决于用户是否开启语义联想功能,如若不开启,则模糊搜索将以字符为基础,S与Q的构成单元直接为字符;若开启语义联想功能,则首先需对S与Q进行分词处理。
4.根据权利要求1所述的一种支持语义联想的轻量级文本模糊搜索的方法,其特征在于,所述S3中模糊搜索的算法包括多层级卷积字符密度加权匹配算法和临对角公共子序列匹配算法。
5.根据权利要求1所述的一种支持语义联想的轻量级文本模糊搜索的方法,其特征在于,在进行所述S3的运算之前可以进行“初瞥”判别,其思路如下:bluE(S,Q)==Trueiflen(set(Q)set(S))>len(set(Q))×0.5。
6.根据权利要求4所述的一种支持语义联想的轻量级文本模糊搜索的方法,其特征在于,所述多层级卷积字符密度加权匹配算法的卷积运算中,可事先判断S_conv是否拥有足够多的非零值单元,否则便不对其执行卷积运算。
7.根据权利要求4所述的一种支持语义联想的轻量级文本模糊搜索的方法,其特征在于,所述多层级卷积字符密度加权匹配算法的卷积求和运算里,利用外部工具如numpy进行辅助。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海黑顿科技有限公司,未经深圳前海黑顿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911331527.1/1.html,转载请声明来源钻瓜专利网。