[发明专利]一种伪相关反馈中的文档主题相关性模型在审
申请号: | 202210105565.0 | 申请日: | 2022-01-28 |
公开(公告)号: | CN114611490A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 陈朝峰;孙久;王媛媛;周锋;徐森;王如刚 | 申请(专利权)人: | 盐城工学院 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06K9/62 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 秦秋星 |
地址: | 224051 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相关 反馈 中的 文档 主题 相关性 模型 | ||
1.一种伪相关反馈中的文档主题相关性模型,其特征在于,通过在PRF模型中引入基于主题的反馈文档之间的相关性来估计反馈文档的可靠性。
2.根据权利要求1所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,所述PRF模型为相关性模型,通过在PRF模型中引入基于主题的反馈文档之间的相关性构建基于主题的相关性模型,该模型为:PT(w|R)∝∑D∈FP(w|D)·PT(D|F);P(w|D)是文档语言模型,PT(D|F)是基于主题的文档相关性,D是反馈文档集F中的一个文档,w是候选词项,R代表相关性。
3.根据权利要求2所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,基于主题的相关性模型中其中PT(z|D)为在第一遍检索中的前k个反馈文档集F在主题空间中的主题分布,TS(D)代表主题相似度,Di和Dj分别为第i个文档和第j个文档,z是主题。
4.根据权利要求2所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,基于主题的相关性模型中其中PT(z|D)为在第一遍检索中的前k个反馈文档集F在主题空间中的主题分布。
5.根据权利要求1所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,所述PRF模型为Rocchio模型;通过在PRF模型中引入基于主题的反馈文档之间的相关性构建基于主题的Rocchio模型,该模型具体描述如下:
(1)所有的文档都使用一个特定的IR模型对给定的查询进行排名;在第一遍检索中使用BM25,排名最前面的|F|个文档被确定为伪相关集F;
(2)在排名最前面的|F|个文档中的每个候选词都被分配一个扩展权重;扩展权重是由加权模型和基于主题的文档相关性提供的权重的点积,加权模型为TF-IDF模型;
(3)查询词权重的向量是初始查询词权重和扩展权重的线性组合,其公式如下:Q1=α·Q0+β·∑D∈Fr(D)·PT(D|F),式中Q0和Q1分别代表原始查询向量和经过一次迭代生成的查询向量,α和β是控制原始查询向量和反馈信息依赖程度的调整参数,r(D)是反馈文档D的TF-IDF权重向量,F是PRF的反馈文档集,PT(D|F)衡量反馈文档D主题相关性的程度。
6.根据权利要求5所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,α固定为1。
7.根据权利要求5所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,PT(D|F)服从均匀分布。
8.根据权利要求5所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,基于主题的Rocchio模型中其中PT(z|D)为在第一遍检索中的前k个反馈文档集F在主题空间中的主题分布。
9.根据权利要求5所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,基于主题的Rocchio模型中其中PT(z|D)为在第一遍检索中的前k个反馈文档集F在主题空间中的主题分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城工学院,未经盐城工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210105565.0/1.html,转载请声明来源钻瓜专利网。