[发明专利]一种基于用户行为信息的搜索引擎检索结果重排序方法有效

专利信息
申请号: 200710099594.6 申请日: 2007-05-25
公开(公告)号: CN101055587A 公开(公告)日: 2007-10-17
发明(设计)人: 岑荣伟;刘奕群;张敏;金奕江;马少平 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100084北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 用户 行为 信息 搜索引擎 检索 结果 排序 方法
【说明书】:

技术领域

发明属于互联网信息处理领域,特别是涉及信息检索系统,具体说是利用群体用户行为信息,对搜索引擎检索结果进行重排序,提高检索排序性能的处理方法。

背景技术

搜索引擎是以一定的策略收集互联网上的信息,对信息进行组织和处理后为用户提供网络信息服务的计算机系统,它包括计算机网络、计算机硬件系统以及在硬件系统上运行的软件程序三个部分。它的主要作用是帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户需求的高质量信息。

目前,通用网络搜索引擎主要包含信息收集、信息处理和用户查询服务三部分。搜索引擎通过被称为网络蜘蛛(Spider)的工具根据站点或页面的URL信息和网页之间的链接关系进行信息收集,用链接信息分析器、文本分析器以及索引器对抓取的页面信息进行整理,进而通过查询服务器负责与用户交交互,根据用户提交的查询关键词进行检索,并返回相关结果列表,提供相关信息以满足用户的查询需求。

从使用者的角度看,搜索引擎提供一个包含搜索框的页面,用户在搜索框输入能反映自已需求的查询关键词,通过浏览器提交给搜索引擎后,搜索引擎返回和用户输入的内容相关的搜索结果信息列表,用户进行点击相关结果页面,查找所需要的信息。

查询服务器中的一个关键技术是对相关的文档进行有效排序,使得用户想要的页面排在返回结果的前列位置,相关信息更容易被访问到。从20世纪60年代中期以来,人们提出了大量的文本相似度模型。90年代后,随着Web页面的大规模出现,部分相似度模型应用到了网络信息搜索引擎上,其主要的思想就是“TF*IDF”。当前应用广泛的模型主要有布尔模型(Boolean Model),统计模型(Statistical Model)和语言知识模型(Linguistic andKnowl edge-based Model)。由于这类相似度模型基本上都是基于普通文本检索提出的,和真实网络环境上的Web文本信息有一定的区别。另外,各Web站点为提高搜索结果排名,利用相关Spam技术,如在各自的页面中添加各种关键词,欺骗搜索引擎,提升搜索结果排名,提高站点知名度。

由于网络检索的特殊性,用户提交关键词进行搜索时,其目标页面并不一定完全是和查询关键词相关的内容,用户一般也难于用简单的几个关键词对其想要的目标页面进行合理描述,很多实际检索任务往往转化为查找相关的关键资源页面。关键资源页面通常是指一系列相关信息页面的入口页面,即用户能通过该页面很容易找到自己想要的信息,和传统的文本信息检索有很大的不同。

90年代中后期,针对已有的网络环境和网络用户的需求特点,人们开始对Web页面的质量问题进行相关研究和考察,其中最主要的依据是网络页面上的超链接结构。超链接结构是网络信息环境与传统的信息媒介的最大区别之一,是指两个页面或页面的两个不同部分之间的一种指向关系,包含源页面和目标页面,基于链接结构提出的技术主要有Pagerank和Hits等算法。Pagerank算法是Google公司的Brin等人根据因特网用户浏览模型建立的超链接分析算法,其主要利用超链接关系对不同页面进行一定的质量评级,用页面对应的评级结果对搜索引擎的搜索结果进行改进,把页面质量高且相关性好的页面排在结果前列返回给用户,能很大程度的提高了实际用户检索的满意度。Pagerank算法的基本架构和实现思路因此也在实际商用搜索引擎的应用中取得了巨大成功。

事实上,尽管各种新模型新技术在搜索引擎中被使用,但还是没法很好的满足检索用户对信息查询的满意度。为尽量提高搜索引擎的搜索性能,很多实际的搜索引擎站点使用一些人工挑选的手段的来提高部分查询词的检索性能,挑选那些用户经常使用且目标唯一的查询词(通常为导航类查询词,如“搜狐:www.sohu.com”,)。当用户检索时,把人工挑选的相关检索目标页面融合在自动检索的页面中,通常如放在返回结果页面前几位。但由于人工挑选带来的投入代价太大,而且很难对更大规模的查询进行人工挑选。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710099594.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top