[发明专利]一种基于分支界定的全文检索方法及系统有效
申请号: | 201910780458.6 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110704579B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 林旺群;金松昌;林彬;李妍;王伟;高博 | 申请(专利权)人: | 中国人民解放军军事科学院评估论证研究中心;中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100091 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分支 界定 全文 检索 方法 系统 | ||
1.一种基于分支界定的全文检索方法,其特征在于,包括:
采用并行方式,基于距离图法为待检文档构建指纹;
对预先构建的指纹库划分指纹子集,基于所述待检文档的指纹采用分支界定法对所述指纹子集进行剪枝;
在剪枝后的指纹子集中并行查找与所述待检文档的指纹相似度最大的1个或多个指纹;
所述指纹对应的文档为针对待检文档的检索结果;
所述指纹库的构建包括:
基于语料库中所有文档的全文采用距离图法为每个文档构建指纹,并生成指纹索引,所述指纹和指纹索引构成指纹库;
所述对预先构建的指纹库划分指纹子集包括:
基于所述指纹索引,按照指纹高度分组,得到分级指纹集,
对各分级指纹集划分指纹子集;
所述基于所述指纹索引,按照指纹高度分组,得到分级指纹集包括:
基于所述指纹索引,按照指纹高度计算指纹的级数,所有相同级数的指纹构成一个分级指纹集,不同的级数对应不同的分级指纹集;
随机选取所述各分级指纹集中的一批指纹构成的代表点集合,对所述各分级指纹集中的指纹进行顺序扫描,如果指纹到所述代表点集合中最近代表点的归一化汉明距离不超过归一化半径,则将该指纹放入最近代表点对应的集合中,否则放入代表点集合中,直至所述各分级指纹集中的指纹扫描完毕,得到各分级指纹集的代表点集合和对应各代表点的指纹集合。
2.如权利要求1所述的基于分支界定的全文检索方法,其特征在于,所述对各分级指纹集划分指纹子集包括:
基于各分级指纹集的代表点集合和对应各代表点的指纹集合,对每个对应代表点的指纹集合进行遍历,如果指纹集合的规模小于预先设置的最小规划临界量,则将所述指纹和所述指纹对应的代表点移到临时指纹集合中;
遍历所述临时指纹集合,若所述指纹与其对应的代表点的归一化汉明距离小于归一化半径,则将所述指纹从所述代表点集合中移到对应代表点的指纹集合中;否则,将指纹添加到大离群点集合中;
代表点集合中剩余的代表点与对应的指纹集合构成了一个指纹子集;
将所有对应各代表点的指纹集合进行划分,生成指纹子集。
3.如权利要求2所述的基于分支界定的全文检索方法,其特征在于,所述基于所述待检文档的指纹采用支界定法对预先构建的指纹库中的指纹子集进行剪枝包括:
基于所述预先构建的指纹库中的指纹子集,计算所述代表点集合和大离群点集合中指纹与目标文档中指纹的相似度的最大值,将之作为全局悲观界的初始值;
将每个指纹子集内所有指纹与目标文档中指纹的相似度的上限作为该指纹子集的局部乐观界,对所有指纹子集的局部乐观界进行降序排列;
基于所述待检文档的指纹,对所述指纹子集进行剪枝,去除低于全局悲观界的局部乐观界对应的指纹子集。
4.如权利要求3所述的基于分支界定的全文检索方法,其特征在于,所述在剪枝后的指纹子集中并行查找与所述待检文档的指纹相似度最大的1个或多个指纹包括:
基于所述待检文档的指纹,根据指纹高度确定指纹级数;
基于指纹索引读取与待检文档的指纹级数相同的所述剪枝后的指纹子集中的指纹,计算两个指纹的相似度;
将所述相似度的值作为键,所述指纹库中指纹对应的文档作为值,组成键值对;
计算生成检索目标中所有同级指纹对应的键值对,并按照键进行降序排序,其中最大的1个或者多个键值对的值,就是与待检文档最相似的文档。
5.如权利要求1所述的基于分支界定的全文检索方法,其特征在于,所述基于语料库中所有文档的全文采用距离图法为每个文档构建指纹,并生成指纹索引包括:
对语料库中所有文档的全文执行停用词去除操作,得到有效文档集;
基于所述有效文档集,生成语料库中文档对应的距离图;
按照所述距离图中的边数将指纹划分到不同层级,生成指纹索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院评估论证研究中心;中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心,未经中国人民解放军军事科学院评估论证研究中心;中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910780458.6/1.html,转载请声明来源钻瓜专利网。