[发明专利]一种基于伪相关反馈模型的信息检索方法及系统有效

专利信息
申请号: 201710370190.X 申请日: 2017-05-23
公开(公告)号: CN107247745B 公开(公告)日: 2018-07-03
发明(设计)人: 何婷婷;潘敏;简芳洪;毛智明 申请(专利权)人: 华中师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 严彦
地址: 430079 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 查询扩展 相关度 信息检索 候选词 伪相关反馈 查询词 查询 扩展查询 文档集合 核函数 重要度 文档 检索 融合
【说明书】:

发明提供一种基于伪相关反馈模型的信息检索方法,包括将词相关度融合到伪相关反馈模型中实现信息检索,包括在伪相关文档集合中生成查询扩展词的时候,分别生成以候选扩展词的重要度为特征的查询扩展词和以候选扩展词与查询主题词的相关度为特征的查询扩展词,再将两者结合到原查询扩展词中,完成最终的信息检索;生成以候选扩展词与查询主题词的相关度为特征的查询扩展词时,采用核函数计算文档中出现在不同位置上的查询词和候选词之间的相关度。本发明既能突出查询词和候选词的分布情况,选取与查询主题词相关程度更高的候选词,还能因为附加的相关度信息,从而定位更加精准的候选词、提高扩展查询及最终检索的精度。

技术领域

本发明属于信息检索技术领域,特别涉及一种将核函数词相关度融合到伪相关反馈模型中的信息检索方法及系统。

背景技术

在信息竞争趋势日盛的年代,借助搜索引擎浏览和获取所需信息是人们日常生活的重要组成部分。然而,网络资源异常丰富,信息总量迅速膨胀,使得用户难以高效和准确的获取并识别重要信息,信息处理技术迫切需要一种更为有效的理论和方法来处理日益增长的海量数据。信息检索作为经典的文本处理技术,能够适应这一要求并迅速成为当前信息处理研究领域中的研究热点。

信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。信息检索过程可以简单地描述为:用户根据其信息需求,组织一个查询字符串提交给信息检索系统,信息检索系统在文档集中检索出与查询相关的文档子集返回给用户。具体来说是指给定一组特定的查询主题,通过某种信息检索模型,对目标中的所有文档与查询主题进行相关度计算,并将每个文档按得分从大到小的顺序返回,返回的结果中文档越靠前说明该文档与查询主题越相关。经过近半个世纪的研究发展,一些有效的信息检索模型陆续提出并逐渐应用到相关的系统中。其中,影响比较大的检索模型包括:布尔逻辑模型、向量空间模型、概率模型、语言模型以及新近提出来的基于监督学习的检索模型。

在实际的信息检索应用中,用户的查询请求与系统反馈的查询结果之间存在一定的偏差,造成检索系统的性能下降。所以,信息检索往往是一个反复的过程,用户常常需要经过多次的查询调整才能获得满意的检索结果。查询扩展技术通过对用户的初始查询进行扩展和重构, 较好的解决了用户查询用词与文档用词不匹配以及用户表达不完整的问题,因而被广泛应用于信息检索领域。简单地说来,查询扩展就是检索系统在进行检索之前,先根据扩展词表,自动把用户查询中的关键词的同义词或者近义词扩展进而形成新的查询,然后再进行检索。

伪相关反馈的出现是为了使检索系统更加有效,使检索结果更好地满足用户的查询请求。其主要机制是,系统默认自己检索出的结果中含有大量与用户查询主题相关的文档,从中取出前N篇作为相关文档,对查询进行调整或扩展。

通常,影响一个检索系统的性能有很多因素,其中最为关键的是信息检索策略,包括文档和查询条件的表示方法、评价文档和查询相关性的匹配策略、查询结果的排序方法和用户进行相关反馈的机制等。

随着高速的互联网发展,海量的信息堆叠,信息的搜索精度成为所有用户关注的第一要点,现在想通过信息检索工具找到用户想要的东西变得越来越困难了,同时各种信息的过度泛滥,使得用户不得不花费更多的时间来甄别哪些信息对于用户来说是有价值的。现有信息检索方法普遍存在的问题是检索平均精度不高,即使目前最好的检索模型的平均精度也只有 30%,信息检索精度的提高还有很长的路要走。而信息检索已经深入到人类生活的各个方面,大部分人每天用百度、谷歌等搜索工具查找需要的各种资料,解决各种现实问题。2010年中国网页搜索的请求量规模达到了600多亿次,而到了2016年,仅百度一个天的搜索请求量就达到了60亿次,在如此大量的检索需求下,信息检索的平均精度每一个百分点的提升将为获取所需要的信息节省大量的时间和精力,其产生的价值非凡。各大互联网公司也在不断追求更低成本更高效率的信息检索技术。

发明内容

本发明所要解决的问题是,优化查询扩展最终以提高检索的平均精度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710370190.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top