[发明专利]一种基于用户行为信息的搜索引擎检索结果重排序方法有效

专利信息
申请号: 200710099594.6 申请日: 2007-05-25
公开(公告)号: CN101055587A 公开(公告)日: 2007-10-17
发明(设计)人: 岑荣伟;刘奕群;张敏;金奕江;马少平 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100084北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 用户 行为 信息 搜索引擎 检索 结果 排序 方法
【权利要求书】:

1.一种基于用户行为信息的搜索引擎检索结果重排序方法,其特征在于该方法是在搜索引擎的计算机上依次按以下步骤实现的:

步骤(1).用户常用查询集的筛选:

步骤(1.1).数据预处理:通过搜索引擎网络服务器从至少一个搜索引擎的用户日志中提取供基于用户行为进行搜索结果重排序的用户信息,形成的用户信息至少包含以下内容:

Query:用户提交的查询;

URL:该查询对应的用户点击的结果页面地址;

Id:系统自动分配给每个用户每次使用搜索引擎时的标识号;

所述步骤(1.1)依次含有以下各子步骤:

步骤(1.1.1).把搜索引擎网络服务器记录的编码格式转换成国家标准汉字编码的GBK格式;

步骤(1.1.2).去除所述Query、URL、Id以外的信息,并把日志信息整理成所述用户日志的Query、URL和Id字符串的形式;

步骤(1.1.3).在步骤(1.1.2)的范围内,再利用KMP的字符串匹配算法过滤用户查询中的噪声信息,仅保留直接反映搜索引擎普通用户查询需求行为的内容项;

步骤(1.2).提取查询用户数信息:

对于在设定的最近时间段内用户日志中的用户提交的每一个查询Q,统计提交过该查询Q的用户数,该用户数表示了用户对该查询Q的关注度;

步骤(1.3).常用查询集的筛选:

若:某查询Q在搜索引擎用户日志中其查询用户数小于设定值,则排除在常用查询集合之外;否则,把该查询Q放在常用查询集合S中;

步骤(2).用户点击率信息的提取:

步骤(2.1).单搜索引擎用户点击率的提取:

步骤(2.2).多搜索引擎下用户点击率信息合并,用一个概率表达式P(URL|查询Q)来表示合并后查询Q的结果页面地址URL的用户点击率:

其中,P(SEi|查询Q)表示在第i个搜索引擎日志SEi中查询Q的概率,用SEi查询可信度表示:

P(URL|SEi,查询Q)表示在搜索引擎日志SEi中,对于查询Q,用户点击结果页面地址URL的点击率,用步骤(2.1)中所述的方法求出,i=1,2,...,I,因而P(URL|SEi,查询Q)取值范围在0~1之间;

步骤(3).利用用户行为信息进行搜索引擎结果改进:

步骤(3.1).用以下两种方法之一对用户点击的结果页面进行筛选,再把结果页面集保存;

固定点击率和法:

对于查询Q,寻找根据搜索引擎用户行为信息的用户点击率最大的前M个页面,该M个页面满足以下条件:连续前M个页面合并后的用户点击率之和大于0.8,但连续前M-1个页面的合并后的用户点击率之和小于0.8,而且该M个页面的用户点击率都大于0.1;

固定结果页面数法:

对于查询Q,寻找用户点击率最大的连续前n个页面:该n个页面对应的用户点击率都大于0.1,且n≤3;

步骤(3.2).搜索引擎原始检索结果的获取:

对于查询Q,将其提交给指定的搜索引擎得到该搜索引擎的检索结果序列;

步骤(3.3).基于用户行为信息的检索结果合并:

当用户向指定搜索引擎提交查询Q进行查询时,根据步骤(3.2)得到搜索引擎原始结果序列SEQ,同时提交给步骤(3.1)根据用户日志信息确定的结果页面集合中查询得到结果页面序列LOG,按如下方法合并该两个序列,将最终结果返回给用户:

按用户点击率大小依次取序列LOG中的每一个结果页面,放入最终返回结果页面集,至取完为止;再取序列SEQ中的每一个结果页面,放入最终返回结果页面集,至取完为止,若最终返回结果页面集中已经存在该结果页面,则不再取该结果页面。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710099594.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top