[发明专利]一种基于稀疏向量匹配的高效检索方法有效

申请号：	202110596994.8	申请日：	2021-05-31
公开（公告）号：	CN113032533B	公开（公告）日：	2021-09-03
发明（设计）人：	赵天成	申请（专利权）人：	宏龙科技（杭州）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/332;G06F40/211;G06F40/289
代理公司：	浙江千克知识产权代理有限公司 33246	代理人：	裴金华
地址：	310000 浙江省杭州市滨江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于稀疏向量匹配高效检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于稀疏向量匹配的高效检索方法，通过对问题句子和答案句子分词编码，然后进行单词级交互，对问题单词和答案句子之间的相关性进行计算，提升了检索细粒度，从而提升了检索准确率，通过ln、ReLU和b三者组合，有效提升算法模型的泛用性、检索精度和检索速度。

技术领域

本发明涉及一种基于稀疏向量匹配的高效检索方法，属于数据处理领域。

背景技术

开放问答（OpenQA），即基于知识库自动回答开放问题，通常采用大规模机器阅读（MRS）实现。MRS利用信息检索（IR）系统来缩小答案段落的选择范围，然后使用机器阅读理解读取器来提取最终答案。

现在检索系统进行训练的方法都是基于双塔语义匹配架构之上，其将问题和答案都转换成密集向量，通过点积计算问题和答案之间的相关程度。但是若答案的数据量较多的时候，则必须依靠近似邻域（ANN）技术辅助进行检索，导致检索速度和正确率下降。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足而提供一种基于稀疏向量匹配的高效检索方法。

解决上述技术问题，本发明采用如下技术方案：

一种基于稀疏向量匹配的高效检索方法，建立算法模型包括如下步骤：

步骤S1：通过分词器将输入的问题q以单词串token q的形式进行表示，token q=[t₁,t₂...t_n]，通过编码器对token q进行编码，得到，从答案候选集中选取一个元素，从该元素中提取获得a和c，a为答案，c为a的上下文，通过分词器将a和c以单词串token (a,c)的形式进行表示，token (a,c)=[c₁,c₂...c_i,a₁,a₂..a_k,c_i+1...c_j]，通过编码器对token (a,c)进行编码，得到H(a,c)=[s₁,s₂...s_j+k];