[发明专利]一种基于TF‑IDF的多索引结果合并排序方法有效
| 申请号: | 201410473307.3 | 申请日: | 2014-09-16 |
| 公开(公告)号: | CN104298715B | 公开(公告)日: | 2017-12-19 |
| 发明(设计)人: | 王德庆;陈勇;刘瑞 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙)11381 | 代理人: | 陈曦,符浩 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 tf idf 索引 结果 合并 排序 方法 | ||
1.一种基于TF-IDF的多索引结果合并排序方法,其特征在于包括如下步骤:
对科技资源核心元数据进行特征词提取,构建不同类别资源的特征词库;
通过计算用户检索词与每类资源的所有特征词的相关度系数确定索引权重因子;索引权重因子通过公式求得;Qterm是用户输入的检索词,Qterm是该类资源的特征词,n是用户输入的检索词的个数,N是该类资源的特征词的个数,sim(Qtermi,Dtermj)代表用户输入的检索词i与该类资源的特征词j的相似度;
根据用户输入的检索词,采用获得每类资源的TF-IDF权重score;其中,TF-IDF因子是Lucene中TF-IDF算法的计算结果;distance(terms)是每类资源的所有词语之间的词序和词距因子;boost(term)指特征词权重因子;decrease是在计算每类资源的TF-IDF权重score过程中由于扩展查询增加的扩展词权重衰减因子;动态调整因子a用以对特征词的权重进行调整;
针对每类资源,分别通过公式weight=indexDecrease*indexBoot*score将该类资源索引权重因子以及该类资源的TF-IDF权重score相结合,获得该类资源的最终TF-IDF权重weight,并根据每类资源的最终TF-IDF权重weight的大小将检索结果进行排序;其中,indexDecrease是索引权重衰减因子。
2.如权利要求1所述的基于TF-IDF的多索引结果合并排序方法,其特征在于:
所述用户检索词与各类资源的所有特征词的相关度系数是用户输入的检索词与该类资源的所有特征词的相似度的算术平均值。
3.如权利要求1所述的基于TF-IDF的多索引结果合并排序方法,其特征在于:
所述distance(terms)由词序因子和词距因子两部分构成;由公式:distance(terms)=t.seq*t.dis计算得到;
所述
t.seq是词序因子,由公式:计算得到;
所述t.dis是词距因子,由公式计算得到;
其中,V(Qterms)是检索词构成的N0维向量;V(Dterms)是由文档中的特征词构成的N0维向量;NumOfTerms(i,j)表示特征词i与特征词j之间的特征词数量,即二者的词距;N是文档中出现的检索词的个数;N0是用户输入的检索词的个数。
4.如权利要求1所述的基于TF-IDF的多索引结果合并排序方法,其特征在于:
所述特征词权重因子是计算用户输入的检索词与该类资源的所有特征词之间的相似度的最大值,即:
其中,Qterm是用户输入的检索词,Dterm是该类资源的特征词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410473307.3/1.html,转载请声明来源钻瓜专利网。





