[发明专利]一种基于TF‑IDF的多索引结果合并排序方法有效
| 申请号: | 201410473307.3 | 申请日: | 2014-09-16 |
| 公开(公告)号: | CN104298715B | 公开(公告)日: | 2017-12-19 |
| 发明(设计)人: | 王德庆;陈勇;刘瑞 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙)11381 | 代理人: | 陈曦,符浩 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 tf idf 索引 结果 合并 排序 方法 | ||
技术领域
本发明涉及一种索引结果排序方法,尤其涉及一种基于TF-IDF(词频-逆文档频率)的多索引结果合并排序方法,属于信息检索技术领域。
背景技术
随着科学技术的飞速发展,各类信息层出不穷,甚至远远超出了人类阅读的能力,如何有效地从海量数据中找出需要的信息越来越受到人们的重视。于是,各种信息检索系统应运而生。信息检索系统的目的是向用户提高快速、准确、友好的查询结果,而对于用户而言,往往只关心最终的查询结果。因此,信息检索系统中根据用户的需求对结果进行排序是最重要的一个环节。尤其是面对多索引的情况,不同的索引包含不同的资源,用户的感兴趣程度也不尽相同。如何能够将多索引检索结果合并排序,以满足用户的检索需求,成为文本检索领域的研究热点之一。
用户进行信息检索时,传统的做法是对检索结果采用TF-IDF算法进行排序,将排序后的检索结果返回给用户。在公开号为CN103744984A的中国专利申请中,公开了一种利用语义信息检索文档的方法。该专利申请通过采用基于关键词的用户检索方法,降低了用户使用难度;采用基于距离和稠密度的文档-本体映射方法,提高映射的准确率;采用基于语义的检索方法,利用多本体索引文档的方法,并且采用了一种结合本体的TF-IDF排序方法,对检索结果按照用户感兴趣的程度进行排序。但是,现有的TF-IDF算法存在以下问题:
(1)结构简单,容易产生计算偏差
TF-IDF算法的理论基础是:对于区别不同文档的最有意义的特征词应该具备两个特征:一是在相关文档中出现频率高,二是在其他文档中的出现频率低。其目的是为了突出重要单词,抑制次要单词。但是,由于其结构过于简单,单纯地认为文本频率越小的特征词就越重要,显然与实际情况不符。
(2)无法反映词语的重要程度
在TF-IDF算法中,一篇文档的权重是由其全部特征词的权重叠加而来,无法反应不同的特征词对该文档的重要程度,即特征词权重对文档整体权重的贡献。
(3)没有考虑特征词的分布情况
在多索引的文本检索中,文档集关于类别的分布往往是偏斜的,不同类别的文档的数目可能相差几个数量级,这对TF-IDF算法的权重计算结果产生较大的影响。因为,在计算IDF值时,使用的是全部文档集的数量,对于抑制文档数量较多的文档类别中的次要特征词具有一定的作用,但是却无法抑制文档数量较少的文档类别中的次要关键词。
(4)没有考虑词序、词距等因素
在现有的TF-IDF算法中,一篇文档的权重是由其全部特征词的权重叠加而来。但是,当用户输入的查询词包含多个词条时,查询词词条之间的距离、查询词的相互顺序也是影响文档整体权重的重要因素。
为了克服现有TF-IDF算法的不足,使其具有更强的适应性和更准确的计算能力,Java开源全文检索引擎Lucene对现有TF-IDF算法进行了改进,增加了TF-IDF权重对特征词分布、特征词权重以及特征词数量比重的依赖,但是没有考虑词序、词距等因素,排序后的检索结果并不能很好地满足用户的检索需求。
发明内容
本发明所要解决的技术问题在于提供一种基于TF-IDF算法的多索引结果合并排序方法。
为实现上述的发明目的,本发明采用下述的技术方案:
一种基于TF-IDF的多索引结果合并排序方法,包括如下步骤:
对待索引资源的核心元数据进行特征词提取,构建不同类别资源的特征词库;通过计算用户检索词与各类资源的所有特征词的相关度系数确定索引权重因子;
根据用户输入的检索词,采用改进的TF-IDF算法获得每类资源的TF-IDF权重;
采用加权合并算法,将每类资源的索引权重因子以及该类资源的TF-IDF权重相结合,获得该类资源的最终TF-IDF权重,并根据资源的最终TF-IDF权重的大小将检索结果进行排序。
其中较优地,所述用户检索词与各类资源的所有特征词的相关度系数是用户输入的检索词与该类资源的所有特征词的相似度的算术平均值。
其中较优地,所述索引权重因子通过公式求得;
其中,Qterm是用户输入的检索词,Dterm是该类资源的特征词,n是用户输入的检索词的个数,N是该类资源的特征词的个数,sim(Qtermi,Dtermj)代表用户输入的检索词i与该类资源的特征词j的相似度。
其中较优地,所述改进的TF-IDF算法通过公式求得;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410473307.3/2.html,转载请声明来源钻瓜专利网。





