[发明专利]一种基于查询日志的数据处理方法和系统有效
申请号: | 201410026245.1 | 申请日: | 2014-01-20 |
公开(公告)号: | CN104794129B | 公开(公告)日: | 2018-07-03 |
发明(设计)人: | 杨国东;朱张斌;李群 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 党晓林 |
地址: | 英属开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询日志 数据处理 查询请求 搜索引擎 申请 数据处理系统 预定时间段 查询结果 存储内容 命中率 存储 修正 统计 | ||
本申请提供一种基于查询日志的数据处理方法和系统。基于查询日志的数据处理方法包括:获取预定时间段搜索引擎的部分或全部的查询日志;对所述查询日志中查询请求的多元共现片段进行频次的统计;对每一多元共现片段,利用该多元共现片段在元数更高的共现片段中的出现频次对所述多元共现片段的频次进行修正;根据多元共现片段的元数及频次选取一个或一个以上多元共现片段;将选取的多元共现片段及其对应的查询结果存储起来。本申请基于查询日志的数据处理系统实施例,可以实现本申请基于查询日志的数据处理方法。利用本申请提供的数据处理方法和系统,可以提高存储内容的查询请求命中率,提升搜索引擎的性能。
技术领域
本发明涉及搜索领域,特别涉及一种基于查询日志的数据处理方法和系统。
背景技术
搜索引擎,可以借助互联网,对各种信息进行整理、筛选或归档等处理,以为用户提供预期得到的信息。
很多情况下搜索条件会特别复杂,提供搜索服务要求搜索引擎具备更高的性能。一种提高性能的方式是通过对查询请求的相关数据进行处理来提高搜索引擎的每秒查询率(QPS, Query Per Second)。
提高QPS的数据处理方法较常用的为查询语句预存法。提供搜索服务的搜索引擎,会收到很多客户端发来的查询请求。例如,客户端发起的查询请求中,查询内容为“中国人民大学”,这样的查询请求称为query。搜索引擎一般会将接收到的查询请求存储起来作为查询日志(query log)。对于查询日志中提出过频次相对较高的查询请求称为高频查询请求。该方法中,首先挖掘查询日志(query log)里面的高频查询请求。搜索引擎为了对此后收到的类似查询请求快速处理并反馈,从而将之前提出过的高频查询请求及其查询结果完整的存储起来。这样,当搜索引擎接收到同样的查询请求时,可以将前述查询对应的结果直接返回至客户端。
在实现本申请过程中,发明人发现现有技术中至少存在如下问题:
上述数据处理方法中,存储的是整个高频query,当再次接收到的查询请求与原来存储的高频查询请求仅有部分相同但不完全相同时,之前存储的高频查询请求及其对应的查询结果完全不能为新的查询请求的处理过程直接利用。例如存储了查询内容为“中国人民大学”的查询请求及对应的查询结果,当再次接收到的查询请求的内容为“中国人民”时,之前存储的内容为“中国人民大学”的查询请求及存储的对应查询结果应该可以作为查询请求内容为“中国人民”的部分结果。但是按照现有技术的方式,由于查询请求的内容不完全相同,导致搜索引擎不能直接利用“中国人民大学”的查询结果,而需要重新完整地执行查询过程。基于上述原因,存储的查询请求及其对应查询结果的命中率不高。
发明内容
本申请的目的是提供一种基于查询日志的存储方法,以实现提高存储内容的查询请求命中率。
一种基于查询日志的数据处理方法,包括:
获取预定时间段中搜索引擎的部分或全部的查询日志;
对所述查询日志中的查询请求的多元共现片段频次进行统计;
对于每一多元共现片段,利用该多元共现片段在元数更高的共现片段中的出现频次对所述多元共现片段的频次进行修正;
根据多元共现片段的元数及频次选取一个或一个以上多元共现片段;
将选取的多元共现片段及其对应的查询结果存储起来。
优选方案中,所述对多元共现片段频次进行统计,包括:对每一查询请求设置一个标识,利用所述标识统计每一共现片段在查询日志的查询请求中出现的频次;所述的标识具有唯一性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410026245.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于协同标绘技术的空间知识服务系统建设方法
- 下一篇:数据处理方法和装置