[发明专利]一种语义相似度向量再稀疏编码索引与检索方法在审

专利信息
申请号: 202210228816.4 申请日: 2022-03-08
公开(公告)号: CN114860868A 公开(公告)日: 2022-08-05
发明(设计)人: 许晓伟;刘振宇;魏智敏;王晓东;曹媛;王成林 申请(专利权)人: 中国海洋大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/31;G06F16/335;G06F16/35;G06F40/30
代理公司: 青岛华慧泽专利代理事务所(普通合伙) 37247 代理人: 赵梅
地址: 266100 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语义 相似 向量 稀疏 编码 索引 检索 方法
【说明书】:

发明属于信息检索技术领域,公开了一种语义相似度向量再稀疏编码索引与检索方法,索引构建时首先利用深度学习语义相似度模型将输入的文本数据生成保存了文本语句语义信息的稠密语义向量;然后将稠密语义向量再稀疏编码为保存了语义信息的字符串;再将生成的字符串存入索引库中的不同字段进行倒排序索引,对所有文档建立倒排索引。在检索时,使用搜索引擎对包含语义信息的字符串进行检索,并召回语义相似文本Top‑N。通过本发明的方法,保留深度学习语义模型向量的表征特性,有效排除召回阶段的误差,提高语义检索的准确率。

技术领域

本发明属于信息检索技术领域,涉及深度学习语义相似度模型和倒排索引相结合的信息检索方法,具体涉及一种语义相似度向量再稀疏编码索引与检索方法。

背景技术

信息检索(InformationRetrieval,简称IR)是指信息按一定的方式组织和存储,并根据信息用户的需求找出有关信息的过程和技术。搜索引擎是进行信息检索的重要工具,传统信息检索方式主要采用基于关键字词匹配(条件检索)技术,用户使用一个或多个关键字来表达查询意图,将关键字作为检索条件提交给搜索引擎,根据关键字与信息资源标引数据库按照一定的搜索策略进行字符匹配,找出所需信息。关键字词检索的文档索引一般基于词袋模型构建倒排序结构,每篇文档只被看成是一系列词的集合,倒排序表的检索查询是一个词项的布尔查询任。

进入信息时代以来,信息的爆炸式增长使得信息检索技术尤为重要,如何从语义层面理解检索内容的含义,例如:“胖”人和“胖”服务器,“计算机”与“电脑”,“操作系统”和“Linux、IOS”等,从海量信息中准确、快速的检索出用户真正想要的内容,成为一项关键的研究课题。

语义索引和搜索的核心是基于用户的搜索,理解用户的搜索行为和动机,在原有关键词检索的基础之上,根据用户上下文情景以及意图分析,获取最适合用户需求的信息。语义索引和相关性搜索研究涉及到分词、倒排序索引、查询语义分析、词语-句子段落-文档级语义理解、排序规则、语义相似度匹配、搜索引擎诸多方面,很多学者在传统搜索技术基础上,开展了很多基于语义和机器学习、深度学习、自然语言理解和搜索算法方面的理论研究和技术探索。

(1)在索引文本解析方面,针对搜索引擎用于富文本内容的工作时,存在查全率和吞吐量低的问题,Hao-pengChan等人设计了一种基于Solr的云搜索引擎系统,根据富文本内容和语义分词,并计算每个关键词的权重,建立文本索引,使用BM25算法计算关键词与文本之间的相似度,并根据相似度计算进行搜索。

(2)在索引文档的语义理解和表示方面,Salton等人首次提出向量空间模型(VSM),基于词频统计将文本映射成向量。Landauer等人基于VSM模型提出了LSI模型,通过奇异值分解(SVD)把文本从词项的向量空间映射到了语义向量空间,使向量具有一定的语义信息。

(3)基于深度学习方法实现文本语义向量化,Devlin等人提出一种新语言表达BERT模型(BidirectionalEncoderRepresentationsfromTransformers,BERT),该模型的所有层都关注整个上下文的语境信息,使用预训练模型,再加一层输出层,并对其进行微调训练,在NLP领域11项任务上获得很好的结果。最近Nils Reimers等人提出了一种Sentence-BERT模型(SBERT),改进了预先训练的BERT网络,使用连体和三连体网络结构来推导语义上有意义的句子,比较余弦相似性,在提升速度同时保持准确性,加快海量相似文本的查询、排序。

(4)语义稠密向量搜索排序方面,近邻最近邻搜索是解决高维向量空间问题的最新方法,Facebook的Faiss包和Spotify的Annoy包是目前高维稠密向量搜索匹配技术的先进方法。但Faiss只是一个能够单机运行的向量检索基础算法库,不支持分布式索引构建。在海量数据的场景下,向量数据集达到百亿级及以上时,单机构建索引会产生单机处理数据量,构建索引耗时较长的问题以及构建的索引可能达到百GB以上甚至达到TB级别,会超过单机物理节点的内存资源上限的问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210228816.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top