[发明专利]一种基于伪相关反馈模型的信息检索方法及系统有效
申请号: | 201710370190.X | 申请日: | 2017-05-23 |
公开(公告)号: | CN107247745B | 公开(公告)日: | 2018-07-03 |
发明(设计)人: | 何婷婷;潘敏;简芳洪;毛智明 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询扩展 相关度 信息检索 候选词 伪相关反馈 查询词 查询 扩展查询 文档集合 核函数 重要度 文档 检索 融合 | ||
1.一种基于伪相关反馈模型的信息检索方法,其特征在于:将词相关度融合到伪相关反馈模型中实现信息检索,包括在伪相关文档集合中生成查询扩展词的时候,分别生成以候选扩展词的重要度为特征的查询扩展词和以候选扩展词与查询主题词的相关度为特征的查询扩展词,再将两者结合到原查询扩展词中,完成最终的信息检索;生成以候选扩展词与查询主题词的相关度为特征的查询扩展词时,采用核函数计算文档中出现在不同位置上的查询词和候选词之间的相关度;
所述将词相关度融合到伪相关反馈模型中实现信息检索,实现方式如下,
当用户提交查询主题时,将查询主题进行预处理得到查询关键词Q,D为所有目标文档,ND为目标文档集合D的文档总数,通过预设的检索权重模型计算查询关键词Q与目标文档集合D中的每一个文档的得分,按得分结果从高到低排列得到第一次查询结果;设根据伪相关反馈的方式取出目标文档集合D中的前N篇文档作为伪相关文档集合D1,在进行查询扩展词选择的时候进行以下步骤,
步骤1,将伪相关文档集合D1中每篇文档中所有的词作为扩展候选词,分别计算各扩展候选词tj本身在伪相关文档集合D1的文档di中的重要度得分得到各文档di的重要度向量如下,
其中,i=1,2,3…,N,j=1,2,3…,n;
计算扩展候选词在所有文档中的重要度得分向量如下,
将中每个扩展候选词的重要度得分取出后按从大到小的顺序排序,将得分最大的前n1个值在对应的扩展候选词选取出来构成重要度查询扩展词集合Q1,用多项式V1表示重要度查询扩展词集合Q1中的每个词和该词对应的重要度得分;
步骤2,将伪相关文档集合D1中每篇文档中所有的词作为扩展候选词,分别根据共现位置和次数采用核函数计算各扩展候选词tr与查询关键词Q在文档di中的相关度得分得到各文档di的相关度向量如下,
其中,i=1,2,3…,N,r=1,2,3…,n;
计算扩展候选词在所有文档中的相关度得分向量如下,
将中每个扩展候选词的相关度得分取出后按从大到小的顺序排序,将得分最大的前n1个值在对应的扩展候选词选取出来构成相关度查询扩展词集合Q′1,用多项式V1'来表示查询扩展词集合Q′1中的每个词和该词对应的相关度得分;
步骤3,将步骤1和步骤2中所得多项式V1和V1'归一化后再进行线性组合,得到新的查询词多项式V如下,
V=(1-γ)×||V1||+γ×||V1'||
其中,||X||表示对向量X进行归一化运算,γ为调节因子;
步骤4,根据步骤3所得查询词多项式V按每个词项的系数从大到小排序,将系数最大的前n1个词项取出得到新的扩展词集合
步骤5,设查询关键词Q包括查询词qs,s=1,2,3…,m,将查询关键词Q表示为多项式VQ,每个查询词的系数值设为1.0;将步骤4中得到的扩展词集合用多项式V'表示,
将查询多项式VQ和查询扩展词多项式V'归一化后进行线性组合,到新的查询词多项式K如下,
K=α×||VQ||+β×||V'||
其中,α和β为调节因子;
步骤6,根据步骤5所得查询词多项式K得到新的查询关键词集合Q',使用新查询关键词集合Q'和Q'中每个查询词在查询词多项式K中对应的权重,采用预设的检索权重模型进行第二次信息检索,得到的查询结果作为最终信息检索结果。
2.根据权利要求1所述基于伪相关反馈模型的信息检索方法,其特征在于:步骤1中,重要度得分采用TFIDF、BM25或RM3方式求取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710370190.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速创建和高效管理数据库备库的方法
- 下一篇:一种数据分享方法及终端