[发明专利]基于相关反馈和聚类的搜索引擎技术有效
申请号: | 201010165586.9 | 申请日: | 2010-04-30 |
公开(公告)号: | CN101853272A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | 李新叶 | 申请(专利权)人: | 华北电力大学(保定) |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 黄家俊 |
地址: | 071003 河北省保定市永*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明同时利用用户相关反馈信息和相关度排序指导检索结果的聚类,使检索结果的最终划分符合用户查询需求;在聚类过程中去除了大量与用户不相关的文档和重复网页,提高了聚类速度,同时优化了检索结果。在聚类过程中,与用户不相关的一类聚簇不修改聚类中心,确保了不会在不相关文档聚簇中因引入噪声而丢掉与用户相关的结果文档。 | ||
搜索关键词: | 基于 相关 反馈 搜索引擎 技术 | ||
【主权项】:
一种基于相关反馈和聚类的搜索引擎技术,其特征在于,包括以下步骤:步骤一:确定初始聚类类别数和各类别的初始聚类中心向量,包括:将用户从检索结果中选取的相关文档划为相关文档类,确定该相关文档类的初始聚类中心向量;所述初始聚类中心向量通过求取各关键词在该相关文档类各文档中的权重平均值得到;将不相关文档划分为一个或若干个不相关文档类,并确定所述各不相关文档类的初始聚类中心向量,包括:-选一个不相关文档作为第一个不相关文档类,并将该不相关文档的特征向量定义为所述不相关文档类的聚类中心向量;-分别计算其余不相关文档和上述不相关文档类的相似度,并根据所得相似度值将该不相关文档划分到与其最相近的当前某个不相关文档类中或划分到新的不相关文档类中,并将该不相关文档的特征向量定义为所述新的不相关文档类的聚类中心向量;步骤二:确定初始划分及最终聚类类别数;分别计算检索结果列表中用户未选取的文档与所述相关文档类和不相关文档类的相似度,根据相似度值的大小进行以下处理:-将该文档划分到与其最相近的当前某个文档类中;-或将该文档划分到新的文档类,并将该文档的特征向量定义为所述新的文档类的聚类中心向量;-或判断该文档属于内容重复的文档并将其删除;步骤三:去掉初始划分中的每个文档类中内容重复的文档;从该文档类中的第一个文档开始,计算该文档的特征向量与其后各个文档的特征向量之间的相似度,根据相似度值判断该文档是否与其它文档内容重复,如果内容重复,则从检索结果列表和该文档类中删除与该文档内容重复的文档;然后从更新后的检索结果列表中的下一个开始,计算该文档的特征向量与其后各文档的特征向量之间的相似度,据此判断并删除内容重复的文档;重复上述过程,直到检索结果列表的最后;步骤四:修改除不相关文档类以外的其它文档类的聚类中心向量;所述聚类中心向量通过求取各关键词在该文档类各文档中的权重平均值得到;步骤五:重新计算检索结果列表中用户未选中的其它文档的特征向量与当前每个文档类的聚类中心向量的相似度,并据此进行划分,包括:-将文档划分到与其最相近的文档类中;-如果某文档属于某一不相关文档类,而且该文档与查询的相关度排序靠后,则分别从不相关文档类和检索结果列表中删除该文档;步骤六:重复步骤四和五,直到满足终止条件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学(保定),未经华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010165586.9/,转载请声明来源钻瓜专利网。