[发明专利]一种支持信息检索结果多元化的数据融合方法在审

专利信息
申请号: 201410642955.7 申请日: 2014-11-13
公开(公告)号: CN104408089A 公开(公告)日: 2015-03-11
发明(设计)人: 李洁玉;黄春兰;吴胜利 申请(专利权)人: 江苏大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 江苏纵联律师事务所 32253 代理人: 蔡栋
地址: 212013 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 支持 信息 检索 结果 多元化 数据 融合 方法
【说明书】:

技术领域

发明属于信息检索领域,具体涉及数据融合技术中线性组合法的权重分配策略。

背景技术

在信息检索任务中,相关性一直是人们对检索结果质量进行评价的一个重要指标。一个好的结果排名绝不会给出大量不相关的检索结果。传统的信息检索系统往往根据文档和给定查询之间的相关性程度进行排名,这在相关文档比较少的情况下是很合理的。然而对于有较多相关文档的情况,检索结果中就可能有较多的重复的相关文档。现在很多信息检索系统,特别是web检索,在计算文档与查询的相关程度过程中不仅考虑相关性特征,还考虑其间的多样性或者是新颖性特征。

本发明尝试从数据融合角度找到解决检索多元化问题的方法。以往的研究[1,2]表明了数据融合技术是有可能提高检索性能的,但是它们更多的仅仅关注了相关性,因此针对信息检索结果多元化,一些数据融合方法应该做一些调整。

线性组合法是数据融合方法中一种比较典型的方法。该方法特别灵活,其获得较好融合效果的关键在于权重分配,不同的权重分配方法会给融合带来不同的效果。目前,已有的一些分配权重策略考虑了两个因素。一个是成员信息检索系统的性能(或有效性)。具有相对良好检索性能的信息检索系统,应该给予一个较大的权重,而对于性能较差的,则应该给它分配较小的权重。另一个因素是成员信息检索系统之间的差异性。如果一个信息检索系统的检索结果与其他信息检索系统的结果的差异性越大,或者说和其他信息检索系统相比越不相似,那么它应当获得较大的权重,反之则应该被分配一个较小的权重。文献[3]了一种仅考虑性能权重分配方法,考察了使用不同性能函数作为权重的融合效果。采用信息检索系统在某一衡量指标下(如MAP)的评价值p,可选的权重计算方案有p0.5,p,p2,p3等等。文献[4,5]介绍了仅考虑相似性的方法,通过计算两个信息检索系统结果中相同文档的覆盖率来衡量两个结果间的相似程度。文献[6]则是将这两种特征结合。

但是,上述的两个因素都是从相关性的角度上考虑的。文献[7]中结合了相关性和多样性,同样考虑了信息检索系统的有效性权重和差异性权重。对于有效性权重,选择了针对多样性的评价指标(如ERR-IA@20)来确定有效性权重;对于相似性(或差异性)权重,则提出了两种不同的计算方法。一种是计算集合覆盖率的方法。考虑t个成员结果中排在前n个位置的文档,假设结果ri中的某个文档dij在其他t-1个结果中出现的次数为cij,定义结果ri和其他结果的差异性值如下:

disi=1nΣj=1n(t-1-cij)t-1---(1)]]>

另一种则是通过比较检索结果文档的排名位置来确定差异性权重。假定一对都含有n个文档的检索结果rA,rB中,有m个文档在rA,rB中都出现了,另外分别有n-m个文档仅出现在一个结果中。首先计算这两个结果之间的差异值(pA(d),pB(d)分别表示文档d在rA,rB中的位置):

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410642955.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top