[发明专利]基于相关反馈和聚类的搜索引擎技术有效
| 申请号: | 201010165586.9 | 申请日: | 2010-04-30 |
| 公开(公告)号: | CN101853272A | 公开(公告)日: | 2010-10-06 |
| 发明(设计)人: | 李新叶 | 申请(专利权)人: | 华北电力大学(保定) |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 黄家俊 |
| 地址: | 071003 河北省保定市永*** | 国省代码: | 河北;13 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 相关 反馈 搜索引擎 技术 | ||
技术领域
本发明涉及互联网信息检索技术领域,尤其涉及一种基于相关反馈和聚类的Web检索结果优化方法。
背景技术
目前,搜索引擎大都是基于关键词来进行索引和检索的,根据用户输入的关键词列表,搜索引擎查找索引库,将匹配的文档按照与用户查询的相关度的不同排序显示。由于关键词具有一词多义现象,而且用户往往只输入很少的关键词进行检索,使得搜索引擎返回的搜索结果列表通常包含了很多主题不相关、混杂在一起的文档,用户必须逐个浏览检索结果列表以找到相关文档,其中还有许多内容重复的网页,从这样的检索结果中浏览信息会浪费用户许多时间和大量精力。
为了方便用户的浏览,一些研究人员将自动聚类技术用于Web信息检索结果的类别划分,将具有相似特征(例如同属于一个主题)的文档放在同一组,以便于用户缩小查找范围,只在自己感兴趣的少数组中查找和浏览所关心的文档。但是对检索结果的自动聚类没有考虑与用户的相关性,导致检索结果不能反映用户的特定意愿及专业领域,用户也不能根据自己的需要和兴趣选择文档聚类的方式。另外,在Web搜索引擎上其检索结果数量巨大,已有的自动聚类研究是对全部检索结果包括大量与用户不相关的结果进行聚类,聚类过程需要时间长,从而影响搜索引擎的性能。
为了使检索结果的聚类与特定用户的查询需求相关,出现了一种基于查询日志的检索结果的半指导聚类方法。该方法根据查询日志中用户点击结果的记录数据得到must-link约束,具体方法是假定用户点击了同一页的两个检索结果,则认为它们是和用户查询相关的,由此可以得出它们之间具有must-link约束关系。考虑到由于个人的原因选择的must-link约束会具有噪声,该方法首先统计查询日志中这些约束的产生频率,然后选择频率大于某个阈值的约束作为最终的must-link约束。用此方法遍历查询日志可以得到关于每个查询的must-link约束,最后根据约束进行检索结果的半指导聚类。由于查询日志中并不包括用户的所有可能的查询,对于用户输入的新的查询,并不能从查询日志中得到约束关系;此外,在聚类时保证了must-link约束的结果在同一聚簇中,can not-link约束的结果不在同一聚簇中,并没有考虑聚类过程的优化,按照该方法对Web信息检索结果聚类时对全部与用户相关的和不相关的检索结果进行聚类处理仍然会耗时长,影响搜索引擎的性能。
另一种将用户反馈信息结合到文本聚类的方法,需要用户首先指定属于一些聚簇的例子文档以指导聚类过程。然后将聚类结果呈现给用户,由用户检查聚类结果并给出一些反馈信息,例如指出文档d应该属于聚簇S或不应属于聚簇S;文档d应该从聚簇Si换到聚簇Sj;两个文档应在同一聚簇或不应在同一聚簇。根据用户反馈信息指导下一轮聚类过程,再与用户交互,直到得到用户满意的聚类结果。对每个聚簇建模时使用了特征局部权重来反映一个聚簇的特征的重要性。通过增加更多更准确的约束来提高特征局部权重的质量,从而提高聚类效果。该方法主要考虑了文本聚类的有效性,但需要用户多次输入反馈信息,增加了用户的负担,尤其是首次聚类时需要用户指定属于一些聚簇的例子文档以指导聚类过程,给用户增加了难度;而且聚类的过程耗时长,不适用于Web信息检索结果的聚类。
发明内容
本发明针对上述方法存在的需要用户多次输入复杂的反馈信息或是查询日志对新的查询无效,以及对全部检索结果聚类耗时长、结果划分中存在无关文档类或文档聚簇中仍存在大量重复内容等弊端,提供了一种只需用户输入与查询需求相关和不相关的少部分反馈信息来指导优化Web检索结果的方法。
本发明采用以下技术方法:
(1)确定初始聚类类别数和各类别的初始聚类中心向量,包括:
将用户从检索结果中选取的相关文档划为一类,称为相关文档类,确定相关文档类的初始聚类中心;相关文档类的初始聚类中心向量通过求取各个关键词在该类各个文档中的权重平均值得到。
将不相关文档划分为一个或若干个不相关文档类,确定每类的初始聚类中心,包括:
-选一个不相关文档作为第一个不相关文档类,该文档的特征向量即为该文档类的聚类中心向量
-计算其余不相关文档和上述类别的相似度,根据相似度值将其划分到最相近的某个不相关类别中或划分到新的不相关类,如果是划分到新的一类,则该文档的特征向量即为该类的聚类中心向量
(2)初始划分及确定最终聚类类别数;
计算检索结果列表中用户未选取的文档与相关文档类和不相关文档类的相似度,根据相似度值的大小进行以下处理:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学(保定),未经华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010165586.9/2.html,转载请声明来源钻瓜专利网。





