[发明专利]一种基于稀疏向量匹配的高效检索方法有效
申请号: | 202110596994.8 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113032533B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 赵天成 | 申请(专利权)人: | 宏龙科技(杭州)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/211;G06F40/289 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 裴金华 |
地址: | 310000 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 稀疏 向量 匹配 高效 检索 方法 | ||
本发明公开了一种基于稀疏向量匹配的高效检索方法,通过对问题句子和答案句子分词编码,然后进行单词级交互,对问题单词和答案句子之间的相关性进行计算,提升了检索细粒度,从而提升了检索准确率,通过ln、ReLU和b三者组合,有效提升算法模型的泛用性、检索精度和检索速度。
技术领域
本发明涉及一种基于稀疏向量匹配的高效检索方法,属于数据处理领域。
背景技术
开放问答(OpenQA),即基于知识库自动回答开放问题,通常采用大规模机器阅读(MRS)实现。MRS利用信息检索(IR)系统来缩小答案段落的选择范围,然后使用机器阅读理解读取器来提取最终答案。
现在检索系统进行训练的方法都是基于双塔语义匹配架构之上,其将问题和答案都转换成密集向量,通过点积计算问题和答案之间的相关程度。但是若答案的数据量较多的时候,则必须依靠近似邻域(ANN)技术辅助进行检索,导致检索速度和正确率下降。
发明内容
本发明所要解决的技术问题在于克服现有技术的不足而提供一种基于稀疏向量匹配的高效检索方法。
解决上述技术问题,本发明采用如下技术方案:
一种基于稀疏向量匹配的高效检索方法,建立算法模型包括如下步骤:
步骤S1:通过分词器将输入的问题q以单词串token q的形式进行表示,token q=[t1,t2...tn],通过编码器对token q进行编码,得到,从答案候选集中选取一个元素,从该元素中提取获得a和c,a为答案,c为a的上下文,通过分词器将a和c以单词串token (a,c)的形式进行表示,token (a,c)=[c1,c2...ci,a1,a2..ak,ci+1...cj],通过编码器对token (a,c)进行编码,得到H(a,c)=[s1,s2...sj+k];
步骤S2:定义,和为列数相同的列矩阵,为的转置矩阵,,b为可训练的bias,则token q和token (a,c)之间的匹配函数为。
步骤S3:重复步骤S1和步骤S2,根据答案候选集中不同元素的数值排序依次输出对应的a和c。
本发明的有益效果为:
1、通过将问题和答案中每一对单词进行细致交互,提升了检索细粒度,从而提升了检索准确率;
2、通过ln、ReLU和b三者组合,有效提升算法模型的泛用性、检索精度和检索速度。
本发明对token q进行编码的编码器为无词序编码器,对token (a,c)进行编码的编码器为有词序编码器。
本发明还包括步骤S4,步骤S4:对词汇表中每个单词进行无词序编码,得到,为词汇表中任一单词经无词序编码后得到的编码结果,则和token (a,c)之间的匹配函数为,匹配结果缓存在索引中,对应的。
本发明若a和c为中文,则有词序编码器为chinese-bert-wwm,若a和c为英文,则有词序编码器为bert-base-uncased。
本发明算法模型的训练函数为,其中a+为正确答案,c+为a+的上下文,a-为错误答案,c-为a-的上下文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宏龙科技(杭州)有限公司,未经宏龙科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110596994.8/2.html,转载请声明来源钻瓜专利网。