[发明专利]一种基于多查询结果合并的在先技术检索方法有效
| 申请号: | 201510035224.0 | 申请日: | 2015-01-23 |
| 公开(公告)号: | CN104778201B | 公开(公告)日: | 2018-01-02 |
| 发明(设计)人: | 周栋;孙刚杰;黄进;陈聪阳 | 申请(专利权)人: | 湖南科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 长沙市融智专利事务所43114 | 代理人: | 欧阳迪奇 |
| 地址: | 411201*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 查询 结果 合并 在先 技术 检索 方法 | ||
技术领域
本发明涉及计算机智能信息处理领域技术,更进一步是关于智能信息检索的技术,特别涉及一种基于多查询结果合并的在先技术检索方法。
背景技术
专利信息已经逐渐成为世界科技信息的主要来源。专利文献是科学技术进步与创新的主要载体,长期以来一直受到研发者或企业经营者的重视。对专利文献的检索与分析能够帮助企业和团体及时、准确地了解相关专利信息,促进技术创新。专利在先技术检索是专利检索的一种重要方法。在先技术信息是指包括所有在某个特定日期之前已经为公众所知的,可能与一项专利的权利要求的原创性有关的信息。如果一项专利申请所提及的技术方案出现在申请日之前公开的在先技术中,则该项专利申请将很可能因不具备创造性甚至新颖性而被驳回。因此,专利在先技术搜索的研究在专利申请、审查、授权方面都起着至关重要的作用。
目前对在先技术的检索是通过从需要检索的技术方案中提取关键词来进行的。然而,各种提取关键词方法的侧重点不一样,同时由于各种方法在性能、查询词分布、关键词抽取参数调节方面的不同,导致检索结果排序相差甚远,给用户选择哪一种方法来使用带来了困难。如何尽可能综合使用各种关键词提取方法并进行有效检索已经成为专利检索领域的重要研究课题。
发明内容
针对现有技术和方法的不足,本发明的目的旨在于提供一种提高专利在先 技术检索性能的方法,通过合并多个查询结果对文档结果列表进行补缺和重排序,提高检索的准确率,降低漏检率。
为实现上述目的本发明采用如下技术方案:
一种基于多查询结果合并的在先技术检索方法,其特征在于:包括以下步骤:
(1)以需要进行在先技术检索的技术方案全文文档作为查询条件并作规范化处理;
(2)对步骤(1)中经处理后的文档使用n+1种关键词提取方法提取查询词组,在所提取的查询词组中确定主查询词组Q0以及辅助查询词组{Q1,…,Qn},n≥1;
(3)对在先技术文献进行规范化处理形成在先技术文档集,分别在在先技术文档集中对Q0以及{Q1,…,Qn}进行检索,产生按相关性排序的n+1个查询结果文档列表,并保存相关性排序值,这些排序值集合记为I;
(4)构建n+1个查询词组及针对每个查询词组的前K个检索结果文档共现矩阵即查询词组-查询结果文档矩阵,该矩阵中每列对应一个查询词组,列中元素即步骤(3)中获得的查询结果文档与该查询词组的相关性排序实数值,如果对某一查询词组,矩阵的行对应的文档不在该查询词组的前K个检索结果文档中,则置列中元素为零;
(5)使用协同过滤算法对步骤(4)中建立的共现矩阵中针对Q0的检索结果文档中未出现的结果文档计算权重,这些权重值集记为C;这里采用的协同过滤算法为现有的协同过滤算法,如基于用户的协同过滤算法,基于物品的协同过滤算法,或者加权Slopeone算法。
(6)针对步骤(4)中建立的共现矩阵,若Q0前K个检索结果文档含有针对Q0的相关性排序值,则线性融合Q0检索结果相关性排序值和未出现结果权重,并进行数据标准化处理;计算公式为:
R=SUM[(RSVi-MINRSV)/(MAXRSV-MINRSV]
其中RSV是一个实数值,如果该结果在Q0的前K个检索结果文档中,则取相关性排序值,如果只有一个结果,则取未出现结果权重,MAXRSV和MINRSV分别为RSV的最大值和最小值,从而得到一组最终排序分数,分数集记为R;
(7)将所述I,C和R这三组排序分数混合在一起,按从大到小的方式排列,实现对主查询词组Q0检索结果文档的补缺和重排序处理,生成发送给用户的最终文档列表。
所述的基于多查询结果合并的在先技术检索方法,对所述步骤(1)中的需要进行在先技术检索的技术方案全文文档和所述步骤(3)中的在先技术文献进行规范化处理的过程包括分词处理、去除重复内容、去除无关内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南科技大学,未经湖南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510035224.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微博转发树和转发森林构建方法
- 下一篇:数据去重方法及装置





