[发明专利]一种基于查询日志的数据处理方法和系统有效
申请号: | 201410026245.1 | 申请日: | 2014-01-20 |
公开(公告)号: | CN104794129B | 公开(公告)日: | 2018-07-03 |
发明(设计)人: | 杨国东;朱张斌;李群 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 党晓林 |
地址: | 英属开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询日志 数据处理 查询请求 搜索引擎 申请 数据处理系统 预定时间段 查询结果 存储内容 命中率 存储 修正 统计 | ||
1.一种基于查询日志的数据处理方法,其特征在于,包括:
获取预定时间段中搜索引擎的部分或全部的查询日志;
对所述查询日志中的查询请求的多元共现片段频次进行统计;所述多元共现片段为:包含多个片段的集合;
对于每一多元共现片段,利用该多元共现片段在元数更高的共现片段中的出现频次对所述多元共现片段的频次进行修正;
根据多元共现片段的元数及频次选取一个或一个以上多元共现片段;
将选取的多元共现片段及其对应的查询结果存储起来。
2.如权利要求1所述的一种基于查询日志的数据处理方法,其特征在于,所述对多元共现片段频次进行统计,包括:对每一查询请求设置一个标识,利用所述标识统计每一共现片段在查询日志的查询请求中出现的频次;所述的标识具有唯一性。
3.如权利要求2所述的一种基于查询日志的数据处理方法,其特征在于,利用所述标识统计每一共现片段在查询日志的查询请求中出现的频次具体包括:
对于每个查询请求,输出每个查询请求中多元共现片段和该查询请求的标识组成的键值对;
将内容相同的n元共现片段的键值对进行合并,并利用所述标识统计每一n元共现片段的频次;所述n为整数,2≤n≤N,所述N为查询日志中查询请求的多元共现片段的最大片段元数。
4.如权利要求2所述的一种基于查询日志的数据处理方法,其特征在于,所述对每一查询请求设置一个标识,包括:计算每一查询请求的信息-摘要算法5的值或者安全散列算法的值或RACE原始完整性校验消息摘要的值,将计算得到的值设置为该查询请求的标识。
5.如权利要求1所述的一种基于查询日志的数据处理方法,其特征在于,对所述多元共现片段的频次进行修正,包括:对元数小于N的多元共现片段的频次进行修正,所述N为查询日志中查询请求的多元共现片段的最大片段元数。
6.如权利要求1所述的一种基于查询日志的数据处理方法,其特征在于,对于所述多元共现片段的频次进行修正,包括:
按照元数从高到低的顺序依次对元数小于N的多元共现片段的频次进行修正,所述N为查询日志中查询请求的多元共现片段的最大片段元数。
7.如权利要求6所述的一种基于查询日志的数据处理方法,其特征在于,对所述多元共现片段的频次进行修正,包括:
将统计的k元共现片段的频次减去包含k元共现片段内容的k+1元共现片段的频次,作为k元共现片段修正后的频次;所述k为整数,2≤k≤(N-1)。
8.如权利要求1所述的一种基于查询日志的数据处理方法,其特征在于,所述根据多元共现片段的元数及频次选取一个或一个以上多元共现片段,包括:
根据第一预设值,将共现片段的元数小于或等于所述第一预设值的设置为低元共现片段,将共现片段的元数大于所述第一预设值的设置为高元共现片段;
根据共现片段的元数及频次选取所述低元共现片段和高元共现片段。
9.如权利要求8所述的一种基于查询日志的数据处理方法,其特征在于,所述根据共现片段的元数及频次选取低元共现片段和高元共现片段,包括:
选取所述高元共现片段;
采用下列方式A-C中的一种或几种的组合选取所述低元共现片段:
A:对共现片段的频次设置一个阈值进行过滤;当共现片段的频次大于或者等于设置的阈值时,该共现片段被选中;
B:设定在低元共现片段中需要选取的总数目P,将所有的低元共现片段按照频次进行降序排列,然后选取排列的共现片段中前面的P个多元共现片段;所述P为正整数,P的取值小于低元共现片段的总个数;
C:按照共现片段元数的不同,分别进行排序,排序后再分别选取每个元数的共现片段中排在前q%的共现片段,所述q的范围包括:0<q<100。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410026245.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于协同标绘技术的空间知识服务系统建设方法
- 下一篇:数据处理方法和装置