[发明专利]一种语义相似度向量再稀疏编码索引与检索方法在审
申请号: | 202210228816.4 | 申请日: | 2022-03-08 |
公开(公告)号: | CN114860868A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 许晓伟;刘振宇;魏智敏;王晓东;曹媛;王成林 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06F16/335;G06F16/35;G06F40/30 |
代理公司: | 青岛华慧泽专利代理事务所(普通合伙) 37247 | 代理人: | 赵梅 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 相似 向量 稀疏 编码 索引 检索 方法 | ||
1.一种语义相似度向量再稀疏编码索引方法,其特征在于,包括以下步骤:
步骤S11、文本语义向量化:将输入的文本数据,利用深度学习语义相似度模型生成保存了文本语句语义信息的稠密语义向量;
步骤S12、稠密语义向量再稀疏编码:将步骤S1生成的稠密语义向量从矢量形式再稀疏编码为保存了语义信息的字符串;
步骤S13、倒排序索引:将步骤S2生成的字符串存入索引库中的不同字段进行倒排序索引,对所有文档建立倒排索引。
2.根据权利要求1所述的一种语义相似度向量再稀疏编码索引方法,其特征在于,采用的深度学习语义相似度模型是SBERT模型与LSI模型相结合的方法;当输入的文本长度低于512时采用SBERT模型,将文本转为语义向量;当文本长度大于512时,先将长文本切分为多个长度不大于512的短文本并采用SBERT模型,生成多个语义向量,然后将除第一个语义向量外的多个向量取平均向量与第一个语义向量一起作为此文本的SBERT语义向量,当输入的文本长度大于512时,同时使用LSI模型对输入文本生成基于LSI模型的语义向量。
3.根据权利要求1所述的一种语义相似度向量再稀疏编码索引方法,其特征在于,步骤S12中,稠密语义向量按照以下编码格式转为字符串:每个编码后的向量字符串分别表示为第一位存储向量的维度,第二位用P或者N代表向量的正负,positive为正,negative为负,后面几位为按照选定的精度n保留了n位小数的向量数值,其中整数和小数部分用A连接。
4.根据权利要求2所述的一种语义相似度向量再稀疏编码索引方法,其特征在于,采用SBERT模型与LSI模型相结合时,步骤S13中,分别将两种模型语义向量再稀疏编码后的字符串存入索引库中的不同字段进行倒排序索引:在索引库中新建三个Field字段,将此文本的长度存到一个域中,其余两个字段将步骤S2中稠密语义向量再稀疏编码后的SBERT向量字符串存于其中一个域中,LSI向量字符串存于另一个域中,SBERT和LSI编码后的字符串作为词项分别建立词典,根据两种词典对所有文档建立倒排索引。
5.一种语义相似度向量再稀疏编码检索方法,其特征在于,首先判断待检索文本是文档还是关键词,第一种情况,当待检索文本类型为文档时,包括以下方法:
S21、待检索文本语义向量化,检测输入的检索内容的长度,根据文本长度选择不同的深度学习语义相似度模型生成保存了文本语句语义信息的稠密语义向量;
S22、待检索文本稠密语义向量再稀疏编码,将步骤S21中基于深度学习语义相似度模型生成的稠密语义向量,从矢量形式再稀疏编码为保留了语义信息的字符串;
S23、编码文本相似度排序,使用搜索引擎的倒排序索引,按照字符串的“或”关系对编码后的向量字符串进行检索,并通过BM25算法完成相关性排序;
第二种情况,当待检索文本类型为关键词时,包括以下方法:
S24、关键词检索,将待检索文本在搜索引擎中进行关键词检索并取检索结果的Top-Y;
S25、Top-Y结果再检索,对于步骤S24获得的Top-Y个结果中的每一个结果,按照当待检索文本类型为文档时,步骤S23编码文本相似度排序中的方法对字符串进行检索并召回结果Top-M,关键词检索的Top-Y结果对应的可以召回Y*M个结果;
S26、检索结果去重再排序,首先将步骤S25获得的Y*M个结果中重复的结果去掉,然后由于每个结果都是经过两次检索得到,两次得分分别为score1、score2,根据score1*score2将去重后的结果重新排序,最后取排序结果的Top-Y作为最终召回结果。
6.根据权利要求5所述的一种语义相似度向量再稀疏编码检索方法,其特征在于,步骤S21中,当文本长度低于512时采用SBERT模型,将文本转为语义向量,当文本长度大于512时将长文本切分为多个长度不大于512的短文本并采用SBERT模型,生成多个语义向量,然后将除第一个短文本语义向量外的多个向量取平均向量并与第一个短文本语义向量一起作为待检索文本的SBERT语义向量;当输入的文本长度大于512时,同时使用LSI模型对输入文本生成基于LSI模型的语义向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210228816.4/1.html,转载请声明来源钻瓜专利网。