[发明专利]一种基于分支界定的全文检索方法及系统有效

专利信息
申请号: 201910780458.6 申请日: 2019-08-22
公开(公告)号: CN110704579B 公开(公告)日: 2020-10-23
发明(设计)人: 林旺群;金松昌;林彬;李妍;王伟;高博 申请(专利权)人: 中国人民解放军军事科学院评估论证研究中心;中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心
主分类号: G06F16/33 分类号: G06F16/33
代理公司: 北京安博达知识产权代理有限公司 11271 代理人: 徐国文
地址: 100091 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 分支 界定 全文 检索 方法 系统
【说明书】:

一种基于分支界定的全文检索方法,包括:采用并行方式,基于距离图法为待检文档构建指纹;对预先构建的指纹库划分指纹子集,基于所述待检文档的指纹采用分支界定法对所述指纹子集进行剪枝;在剪枝后的指纹子集中并行查找与所述待检文档的指纹相似度最大的1个或多个指纹;所述指纹对应的文档为针对待检文档的检索结果。本发明提供的技术方案采用分支界定法对指纹库中的并行子集进行剪枝,精简了检索目标,采用并行的方式进行检索,在保障检索准确性的情况下,提高了检索效率,相比于单机或者串行检索,具有更快的速度,并且对于计算机的硬件要求低,适用性强,易于推广。

技术领域

本发明涉及文档检索领域,具体涉及一种基于分支界定的全文检索方法及系 统。

背景技术

随着互联网技术的快速发展,无论线上还是线下,文本库的规模急剧膨胀, 如何对这些文本集合建立高效的索引和进行快速检索已经成为一个亟待解决的 问题。由于文档长短不一,使用简单的几个词语、短句甚至片段等无法表征其核 心内容,或者说难以全面概括文档内容。此外,词序在文档中也扮演着重要的作 用,传统的基于关键字的检索方法和现有的全文检索方法在这方面考虑不足,造 成检索效率低,准确率低。

在基于二维指纹进行全文检索的方法,它保留了文档的结构信息,可以有效 提高检索的准确性和查询效率。在该方法中,首先为语料库中的文档生成各阶距 离图,然后基于这些距离图来生成二维指纹,并创建了基于二维指纹的索引结构。 有了索引,即可通过顺序扫描的方式进行二维指纹的相似度计算,得到与待检索 文档指纹最相似的指纹集合,通过索引即可获得对应的原始文档集合。

由于指纹相似度的计算并不像字符串匹配那么简单,并且随着语料库规模的 增加,顺序扫描的方式进行指纹的检索,非常耗时。在保证准确率的情况下,大 规模语料库的检索效率还较为低下。

发明内容

为了解决现有技术中所存在的大规模语料库的检索效率低和准确率低的问 题,本发明提供一种基于分支界定的全文检索方法。

本发明提供的技术方案是:

一种基于分支界定的全文检索方法,其改进之处在于,包括:

采用并行方式,基于距离图法为待检文档构建指纹;

对预先构建的指纹库划分指纹子集,基于所述待检文档的指纹采用分支界定 法对所述指纹子集进行剪枝;

在剪枝后的指纹子集中并行查找与所述待检文档的指纹相似度最大的1个 或多个指纹;

所述指纹对应的文档为针对待检文档的检索结果。

优选地,所述指纹库的构建包括:

基于语料库中所有文档的全文采用距离图法为每个文档构建指纹,并生成指 纹索引,所述指纹和指纹索引构成指纹库。

优选地,所述对预先构建的指纹库划分指纹子集包括:

基于所述指纹索引,按照指纹高度分组,得到分级指纹集,

对各分级指纹集划分指纹子集。

优选地,所述基于所述指纹索引,按照指纹高度分组,得到分级指纹集包括:

基于所述指纹索引,按照指纹高度计算指纹的级数,所有相同级数的指纹构 成一个分级指纹集,不同的级数对应不同的分级指纹集;

随机选取所述各分级指纹集中的一批指纹构成的代表点集合,对所述各分级 指纹集中的指纹进行顺序扫描,如果指纹到所述代表点集合中最近代表点的归一 化汉明距离不超过归一化半径,则将该指纹放入最近代表点对应的集合中,否则 放入代表点集合中,直至所述各分级指纹集中的指纹扫描完毕,得到各分级指纹 集的代表点集合和对应各代表点的指纹集合。

优选地,所述对各分级指纹集划分指纹子集包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院评估论证研究中心;中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心,未经中国人民解放军军事科学院评估论证研究中心;中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910780458.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top