[发明专利]基于语义的近似文本搜索方法、装置、计算机设备及介质在审
申请号: | 202110732513.1 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113434636A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 谷坤 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194;G06F40/216;G06F40/289 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 近似 文本 搜索 方法 装置 计算机 设备 介质 | ||
1.一种基于语义的近似文本搜索方法,其特征在于,包括下述步骤:
获取待查询文本,提取所述待查询文本中的关键词,获得与所述待查询文本对应的关键词集合;
将所述关键词集合输入词嵌入模型中,通过所述词嵌入模型计算出所述关键词的相近词,并将所述关键词和所述相近词作为查询关键词;
根据所述查询关键词查询到与所述待查询文本相似的候选文本;
计算所述待查询文本与所述候选文本之间的相似度,根据所述相似度确定出目标文本。
2.根据权利要求1所述的基于语义的近似文本搜索方法,其特征在于,所述提取所述待查询文本中的关键词包括:
对所述待查询文本进行分词和去停用词处理,得到候选关键词;
获取所述候选关键词的词语权重、词长、词现以及出现所述候选关键词的句子的位置信息;
根据所述词语权重、所述词长、所述词现以及所述位置信息,计算出所述候选关键词的词语重要度,所述词语重要度的计算采用如下公式:
其中,f为词语重要度,α、β、γ是超参,TFIDFi为词语权重,lw为词长,minpos为位置信息,C为词现;
根据所述词语重要度确定出关键词。
3.根据权利要求2所述的基于语义的近似文本搜索方法,其特征在于,所述获取所述候选关键词的词语权重包括:
采用TF-IDF算法计算所述候选关键词的词频和逆文本频率;
根据所述词频和所述逆文本频率,计算出所述候选关键词的词语权值。
4.根据权利要求2所述的基于语义的近似文本搜索方法,其特征在于,所述根据所述词语重要度确定出关键词包括:
按照所述词语重要度从大到小对候选关键词进行排序,得到排序结果;
从所述排序结果中选取预设个数的候选关键词作为关键词。
5.根据权利要求1所述的基于语义的近似文本搜索方法,其特征在于,所述通过所述词嵌入模型计算出所述关键词的相近词包括:
步骤A、确定所述关键词集合中的其中一个关键词作为中心词,使用预设大小的滑动窗口捕获所述中心词的上下文词;
步骤B、对所述中心词和每个所述上下文词进行one-hot编码,形成词语矩阵;
步骤C、通过索引映射,将所述中心词和每个所述上下文词映射到T维空间,形成映射矩阵;
步骤D、根据所述中心词和每个所述上下文词,初始化所述词嵌入模型的映射层与隐藏层之间的权重矩阵;
步骤E、取出所述中心词的词向量,与所述权重矩阵做内积运算,得到所述中心词和每个所述上下文词的计算结果,根据计算结果确定出所述相近词;
步骤F、重复步骤A至步骤E,为所述关键词集合中的每个所述关键词确定出相近词。
6.根据权利要求1所述的基于语义的近似文本搜索方法,其特征在于,所述计算所述待查询文本与所述候选文本之间的相似度包括:
计算所述待查询文本的关键词与每个所述候选文本的关键词之间的第一相似度,并计算所述待查询文本的相近词与每个所述候选文本的相近词之间的第二相似度;
通过对所述第一相似度和所述第二相似度进行加权求和计算,得到所述待查询文本与每个所述候选文本的最终相似度。
7.根据权利要求6所述的基于语义的近似文本搜索方法,其特征在于,所述根据所述相似度确定出符合条件的目标文本包括:
将所述最终相似度大于等于预设阈值的候选文本作为目标文本。
8.一种基于语义的近似文本搜索装置,其特征在于,包括:
获取模块,用于获取待查询文本,提取所述待查询文本中的关键词,获得与所述待查询文本对应的关键词集合;
提取模块,用于将所述关键词集合输入词嵌入模型中,通过所述词嵌入模型计算出所述关键词的相近词,并将所述关键词和所述相近词作为查询关键词;
查询模块,用于根据所述查询关键词查询到与所述待查询文本相似的候选文本;及
计算模块,用于计算所述待查询文本与所述候选文本之间的相似度,根据所述相似度确定出目标文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110732513.1/1.html,转载请声明来源钻瓜专利网。