[发明专利]垃圾网页的识别方法及系统有效
申请号: | 201310029963.X | 申请日: | 2013-01-25 |
公开(公告)号: | CN103064984A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 刘奕群;马少平;张敏;金奕江;张阔 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾 网页 识别 方法 系统 | ||
1.一种垃圾网页的识别方法,其特征在于,包括以下步骤:
S1:获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;
S2:从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合;
S3:从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;
S4:根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;以及
S5:如果所述查询-结果集合中结果网页的垃圾得分大于阈值则所述结果网页为垃圾网页,并将所述结果网页添加到所述垃圾网页集合中。
2.根据权利要求1所述的垃圾网页的识别方法,其特征在于,所述步骤S1具体包括:
S11:获取搜索引擎的查询日志,并对所述查询日志转换为GBK格式;
S12:对所述转换后的查询日志进行整理获得预处理查询日志。
3.根据权利要求1所述的垃圾网页的识别方法,其特征在于,所述步骤S2具体包括:
S21:对所述预处理查询日志的每个查询分词为多个关键词,并将所述每个关键词与用户的点击结果网页构建第一查询-结果集合;
S22:计算所述第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合;
S23:计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。
4.根据权利要求1所述的垃圾网页的识别方法,其特征在于,所述步骤S4具体包括:
S41:设置所述查询-结果集合中每一个查询的初始作弊得分,并设置所述查询-结果集合中结果网页的初始垃圾得分;
S42:计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及
S43:计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。
5.一种垃圾网页的识别系统,其特征在于,包括:
预处理模块,用于获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;
筛选模块,用于从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合;
提取模块,用于从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;
计算模块,用于根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;
判断模块,用于判断所述查询-结果集合中结果网页的垃圾得分是否大于阈值,如果大于阈值则为垃圾网页;以及
处理模块,用于将所述结果网页添加到所述垃圾网页集合中。
6.根据权利要求5所述的垃圾网页的识别系统,其特征在于,所述预处理模块包括:
获取转换单元,用于获取搜索引擎的查询日志,并对所述查询日志转换为GBK格式;
预处理单元,用于对所述转换后的查询日志进行整理获得预处理查询日志。
7.根据权利要求5所述的垃圾网页的识别系统,其特征在于,所述筛选模块包括:
构建单元,用于对所述预处理查询日志的每个查询分词为多个关键词,并将所述每个关键词与用户的点击结果网页构建第一查询-结果集合;
第一计算单元,用于计算所述第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合;
第二计算单元,用于计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。
8.根据权利要求5所述的垃圾网页的识别系统,其特征在于,所述计算模块包括:
设置单元,用于设置所述查询-结果集合中每一个查询的初始作弊得分,并设置所述查询-结果集合中结果网页的初始垃圾得分;
第三计算单元,用于计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及
第四计算单元,用于计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310029963.X/1.html,转载请声明来源钻瓜专利网。