[发明专利]一种基于多查询结果合并的在先技术检索方法有效
| 申请号: | 201510035224.0 | 申请日: | 2015-01-23 |
| 公开(公告)号: | CN104778201B | 公开(公告)日: | 2018-01-02 |
| 发明(设计)人: | 周栋;孙刚杰;黄进;陈聪阳 | 申请(专利权)人: | 湖南科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 长沙市融智专利事务所43114 | 代理人: | 欧阳迪奇 |
| 地址: | 411201*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 查询 结果 合并 在先 技术 检索 方法 | ||
1.一种基于多查询结果合并的在先技术检索方法,其特征在于:包括以下步骤:
(1)以需要进行在先技术检索的技术方案全文文档作为查询条件并作规范化处理;
(2)对步骤(1)中经处理后的文档使用n+1种关键词提取方法提取查询词组,在所提取的查询词组中确定主查询词组Q0以及辅助查询词组{Q1,…,Qn},n≥1;
(3)对在先技术文献进行规范化处理形成在先技术文档集,分别在在先技术文档集中对Q0以及{Q1,…,Qn}进行检索,产生按相关性排序的n+1个查询结果文档列表,并保存相关性排序值,这些排序值集合记为I;
(4)构建n+1个查询词组及针对每个查询词组的前K个检索结果文档共现矩阵即查询词组-查询结果文档矩阵,该矩阵中每列对应一个查询词组,列中元素即步骤(3)中获得的查询结果文档与该查询词组的相关性排序实数值,如果对某一查询词组,矩阵的行对应的文档不在该查询词组的前K个检索结果文档中,则置列中元素为零;
(5)使用协同过滤算法对步骤(4)中建立的共现矩阵中针对Q0的检索结果文档中未出现的结果文档计算权重,这些权重值集记为C;
(6)针对步骤(4)中建立的共现矩阵,若Q0前K个检索结果文档含有针对Q0的相关性排序值,则线性融合Q0检索结果相关性排序值和未出现结果权重,并进行数据标准化处理;计算公式为:
R=SUM[(RSVi-MINRSV)/(MAXRSV-MINRSV]
其中RSV是一个实数值,如果该结果在Q0的前K个检索结果文档中,则取相关性排序值,如果只有一个结果,则取未出现结果权重,MAXRSV和MINRSV分别为RSV的最大值和最小值,从而得到一组最终排序分数,分数集记为R;
(7)将所述I,C和R这三组排序分数混合在一起,按从大到小的方式排列,实现对主查询词组Q0检索结果文档的补缺和重排序处理,生成发送给用户的最终文档列表。
2.根据权利要求1所述的基于多查询结果合并的在先技术检索方法,其特征在于:对所述步骤(1)中的需要进行在先技术检索的技术方案全文文档和所述步骤(3)中的在先技术文献进行规范化处理的过程包括分词处理、去除重复内容、去除无关内容。
3.根据权利要求1所述的基于多查询结果合并的在先技术检索方法,其特征在于:所述的步骤(2)中,关键词提取方法包括:单频词去除、TF方法、TFIDF方法、BM25方法、基于语言模型的方法、基于相关反馈的方法和基于IPC分类的方法。
4.根据权利要求1所述的基于多查询结果合并的在先技术检索方法,其特征在于:所述的步骤(2)中,以移除单频词后的需要进行在先技术检索的技术方案全文文档中所有词作为主查询词组Q0。
5.根据权利要求1所述的基于多查询结果合并的在先技术检索方法,其特征在于:所述的步骤(3)中,在在先技术文档集中对Q0以及{Q1,…,Qn}进行检索时,查询词组中所有的查询词之间的检索条件均为或。
6.根据权利要求1所述的基于多查询结果合并的在先技术检索方法,其特征在于:所述的步骤(4)中,K的取值为针对每个查询词组的检索结果数量的5%-10%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南科技大学,未经湖南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510035224.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微博转发树和转发森林构建方法
- 下一篇:数据去重方法及装置





