[发明专利]一种伪相关反馈中的文档主题相关性模型在审
申请号: | 202210105565.0 | 申请日: | 2022-01-28 |
公开(公告)号: | CN114611490A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 陈朝峰;孙久;王媛媛;周锋;徐森;王如刚 | 申请(专利权)人: | 盐城工学院 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06K9/62 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 秦秋星 |
地址: | 224051 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相关 反馈 中的 文档 主题 相关性 模型 | ||
本发明公开一种伪相关反馈中的文档主题相关性模型,通过在PRF模型中引入基于主题的反馈文档之间的相关性来估计反馈文档的可靠性。所述PRF模型为相关性模型,通过在PRF模型中引入基于主题的反馈文档之间的相关性构建基于主题的相关性模型。与Miao等人提出的方案不同,本发明的方法可以被认为是一种通用的方法,能够被纳入任何其它PRF模型中。在TREC的5个公开数据集上对本发明提出的基于主题的伪相关反馈的相关性模型进行了验证,实验结果表明本发明算法具有良好的性能。
技术领域
本发明涉及文本检索,信息检索或数据挖掘领域,具体涉及一种伪相关反馈中的文档主题相关性模型。
背景技术
伪相关反馈(pseudo relevance),也称为盲相关反馈(blind relevancefeedback),是一种自动局部分析的方法。它将相关反馈的人工操作部分自动化,从而可以获得检索性能的提升。该方法首先进行正常的检索过程,返回最相关的文档构成初始集,然后假设排名靠前的k篇文档是相关的,最后在此假设上像以往一样进行相关反馈。
通过查询扩展(Query Expansion,QE)的伪相关反馈(Pseudo RelevanceFeedback,PRF)通常被认为是在信息检索(Information Retrieval,IR)中实现良好性能的一个非常有效的方法。尽管PRF模型通常表现非常好,但在某些情况下也会失效。在经典的PRF模型中,比如Rocchio模型或相关性模型RM3,所有排名靠前的k个反馈文档都被假定为与查询同样相关。其中候选词项的权重只基于它们在集合中的重要性。这些模型在选择候选文件时并不能确定它们的可靠性。一般来说,不同的反馈文档中具有相同权重(如词频-逆文本频率(Term Frequency–Inverse Document Frequency,TF-IDF)指数)的词被认为对QE是同样可靠的。当一些反馈文档包括不同的主题,其中许多与原始查询无关时,采用经典PRF策略的模型(例如,Rocchio和RM3)表现不够好。在这种情况下,文档中涉及不相关主题的大量不相关词项也被添加到新的查询表示中,这会对第二遍检索的检索性能产生了负面影响。
最近,研究人员开始将主题模型用于PRF,以获得最相关主题的反馈词。然而,它们中的大多数方法都是从第一轮检索返回的前k个文档中选择候选词项,而没有考虑这些文档的可靠性。由于原始查询一般都很短,而且它们的主题是模糊的,因此采用当前的方法有很大的缺陷。针对这个问题,Miao等人通过将主题空间(Topic Space,TS)信息整合到Rocchio模型中,提出了一个概率框架TopPRF,该框架通过考虑top-3文档和其它文档之间的相关性来估计反馈文档的可靠性。
发明内容
发明目的:从背景的说明来看,在选择候选词项时,大多数研究都没有确定第一遍检索时返回的前k个文档的可靠性。为解决上述问题,本发明提出通过在语言模型中引入基于主题的反馈文档之间的相关性来估计反馈文档的可靠性。与Miao等人提出的工作不同,本发明的方法可以被认为是一种通用的方法,能够被纳入任何其它PRF模型中。在TREC的5个公开数据集上对本发明提出的基于主题的伪相关反馈的相关性模型进行了验证,实验结果表明本发明算法具有良好的性能。
技术方案:
本发明的相关性模型基于经典的伪相关反馈框架,通过改进查询的表示方法来实现(伪)相关性反馈。在相关性模型RM1中,一个候选词项w的权重是:P(w|R)∝∑D∈FP(w|D)·P(D|Q) (1)
其中,Q是一个查询,D是反馈文档集F中的一个文档,P(w|D)是文档语言模型,P(D|Q)是查询语言模型。本发明采用这个框架,但是利用了基于主题的文档相关性PT(D|F),而不是从文档得分估计P(D|Q)。本发明提出的基于主题的相关性模型如下:
PT(w|R)∝∑D∈FP(w|D)·PT(D|F) (2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城工学院,未经盐城工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210105565.0/2.html,转载请声明来源钻瓜专利网。