[发明专利]基于用户日志进行查询推荐的方法及系统有效
申请号: | 201110422562.1 | 申请日: | 2011-12-16 |
公开(公告)号: | CN102609433A | 公开(公告)日: | 2012-07-25 |
发明(设计)人: | 王继民;李雷明子;王建冬 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 日志 进行 查询 推荐 方法 系统 | ||
1.一种基于用户日志进行查询推荐的方法,其特征在于,包括以下步骤:
S1:对搜索引擎用户日志中的数据集进行选择,并对所述选择的数据集进行预处理,得到有效查询日志集合,作为第一数据集;
S2:提取第一数据集中每一个查询串的支持度、流行度和推荐度指标,选择满足这三个特征指标最小阈值的查询串与用户记录,作为第二数据集;
S3:选择多个典型查询串作为训练数据,作为第一训练样本集;
S4:对第一训练样本集中的每一查询串,在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串,然后标注所述候选相关查询串与给定查询串的相关性,作为第二训练样本集;
S5:构建预测模型,基于所述第二训练样本集,学习获得所述预测模型的参数取值;
S6:对用户输入的查询串,在第二数据集中找到与用户输入的查询串具有设定阈值以上相似度、共现度和关联度的查询串,作为候选查询集;
S7:将所述候选查询集中每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标作为变量输入到所述预测模型中,计算每一候选查询串与给定查询串的相关性大小,输出排序靠前的n个查询串。
2.如权利要求1所述的基于用户日志进行查询推荐的方法,其特征在于,所述步骤S1根据时间对搜索引擎用户日志中的数据集进行选择,并对所述选择的数据集进行预处理,具体步骤为:
S11:选择一个确定时间段内的用户日志数据;
S12:提取所述确定时间段内用户日志数据中与用户查询与点击的相关信息;
S13:删除所述用户日志数据中异常查询和查询为空的数据。
S14:去掉过长或者过短的无效查询;
S15:将查询中的英文字母全部转化为小写,并去除查询串中的多余空格以及乱码;
S16:进行用户会话的划分。
3.如权利要求1所述的基于用户日志进行查询推荐的方法,其特征在于,在所述步骤S2和S5之间还包括对第二数据集的查询串提取的支持度、流行度、以及推荐度进行归一化处理的步骤;
在所述步骤S4和S5之间还包括对相关查询串提取的共现度、相似度以及关联度指标进行归一化处理的步骤;
所述步骤S7还包括将所述第二候选集合中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理的步骤。
4.如权利要求3所述的基于用户日志进行查询推荐的方法,其特征在于,通过下面的公式对所述提取的支持度、流行度、推荐度指标进行归一化处理:
其中,x1、x2和x3分别表示提取的支持度、流行度和推荐度数值;分别表示归一化处理后的支持度、流行度和推荐度数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110422562.1/1.html,转载请声明来源钻瓜专利网。