[发明专利]一种基于用户行为信息的搜索引擎检索结果重排序方法有效
| 申请号: | 200710099594.6 | 申请日: | 2007-05-25 |
| 公开(公告)号: | CN101055587A | 公开(公告)日: | 2007-10-17 |
| 发明(设计)人: | 岑荣伟;刘奕群;张敏;金奕江;马少平 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100084北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 用户 行为 信息 搜索引擎 检索 结果 排序 方法 | ||
1.一种基于用户行为信息的搜索引擎检索结果重排序方法,其特征在于该方法是在搜索引擎的计算机上依次按以下步骤实现的:
步骤(1).用户常用查询集的筛选:
步骤(1.1).数据预处理:通过搜索引擎网络服务器从至少一个搜索引擎的用户日志中提取供基于用户行为进行搜索结果重排序的用户信息,形成的用户信息至少包含以下内容:
Query:用户提交的查询;
URL:该查询对应的用户点击的结果页面地址;
Id:系统自动分配给每个用户每次使用搜索引擎时的标识号;
所述步骤(1.1)依次含有以下各子步骤:
步骤(1.1.1).把搜索引擎网络服务器记录的编码格式转换成国家标准汉字编码的GBK格式;
步骤(1.1.2).去除所述Query、URL、Id以外的信息,并把日志信息整理成所述用户日志的Query、URL和Id字符串的形式;
步骤(1.1.3).在步骤(1.1.2)的范围内,再利用KMP的字符串匹配算法过滤用户查询中的噪声信息,仅保留直接反映搜索引擎普通用户查询需求行为的内容项;
步骤(1.2).提取查询用户数信息:
对于在设定的最近时间段内用户日志中的用户提交的每一个查询Q,统计提交过该查询Q的用户数,该用户数表示了用户对该查询Q的关注度;
步骤(1.3).常用查询集的筛选:
若:某查询Q在搜索引擎用户日志中其查询用户数小于设定值,则排除在常用查询集合之外;否则,把该查询Q放在常用查询集合S中;
步骤(2).用户点击率信息的提取:
步骤(2.1).单搜索引擎用户点击率的提取:
步骤(2.2).多搜索引擎下用户点击率信息合并,用一个概率表达式P(URL|查询Q)来表示合并后查询Q的结果页面地址URL的用户点击率:
其中,P(SEi|查询Q)表示在第i个搜索引擎日志SEi中查询Q的概率,用SEi查询可信度表示:
P(URL|SEi,查询Q)表示在搜索引擎日志SEi中,对于查询Q,用户点击结果页面地址URL的点击率,用步骤(2.1)中所述的方法求出,i=1,2,...,I,因而P(URL|SEi,查询Q)取值范围在0~1之间;
步骤(3).利用用户行为信息进行搜索引擎结果改进:
步骤(3.1).用以下两种方法之一对用户点击的结果页面进行筛选,再把结果页面集保存;
固定点击率和法:
对于查询Q,寻找根据搜索引擎用户行为信息的用户点击率最大的前M个页面,该M个页面满足以下条件:连续前M个页面合并后的用户点击率之和大于0.8,但连续前M-1个页面的合并后的用户点击率之和小于0.8,而且该M个页面的用户点击率都大于0.1;
固定结果页面数法:
对于查询Q,寻找用户点击率最大的连续前n个页面:该n个页面对应的用户点击率都大于0.1,且n≤3;
步骤(3.2).搜索引擎原始检索结果的获取:
对于查询Q,将其提交给指定的搜索引擎得到该搜索引擎的检索结果序列;
步骤(3.3).基于用户行为信息的检索结果合并:
当用户向指定搜索引擎提交查询Q进行查询时,根据步骤(3.2)得到搜索引擎原始结果序列SEQ,同时提交给步骤(3.1)根据用户日志信息确定的结果页面集合中查询得到结果页面序列LOG,按如下方法合并该两个序列,将最终结果返回给用户:
按用户点击率大小依次取序列LOG中的每一个结果页面,放入最终返回结果页面集,至取完为止;再取序列SEQ中的每一个结果页面,放入最终返回结果页面集,至取完为止,若最终返回结果页面集中已经存在该结果页面,则不再取该结果页面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710099594.6/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





