[发明专利]垃圾网页的识别方法及系统有效
申请号: | 201310029963.X | 申请日: | 2013-01-25 |
公开(公告)号: | CN103064984A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 刘奕群;马少平;张敏;金奕江;张阔 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾 网页 识别 方法 系统 | ||
技术领域
本发明涉及网络信息智能处理技术领域,特别涉及一种垃圾网页的识别方法及系统。
背景技术
互联网信息量的飞速增长使搜索引擎成为人们日常工作和生活中不可或缺的信息获取手段。根据中国互联网络信息中心2011年12月的统计,我国的网民群体中搜索引擎用户的数量已经达到3.96亿,应用普及率近80%,是网民使用最多的互联网服务之一。搜索引擎在用户的上网过程中发挥着重要的入口作用,因此,在搜索引擎检索结果中取得有利的排名已经成为网络资源尽快获得用户关注的最有效途径。
在这种以搜索引擎为主要入口的信息获取方式下,高搜索排名带来的高流量和高收益诱使不少网络内容提供者使用作弊方式对搜索引擎算法进行欺诈,以获取较有利的结果排名,而这种使用作弊方式基于欺诈获利的网页就是垃圾网页。垃圾网页的定义为:利用搜索引擎运行算法的缺陷,采取针对搜索引擎的作弊手段,使其获得高于其网络信息质量排名效果以谋求直接或间接利益的网页。
Fetterly等人在2003年通过对英文网络页面的采样分析,认为其中至少有8.1%的页面是垃圾网页;而等人在2004年则估计Web中大约有10%至15%的垃圾内容;根据我们在搜狗搜索引擎协助下对约8亿个中文网页的抽样分析,中文网络资源中约有15%的网页属于垃圾网页。
垃圾网页对于网络用户、网络资源环境和搜索引擎都会产生显著的不利影响。对于网络用户而言,垃圾网页排在检索结果列表中靠前的位置以欺骗用户点击,这种行为增加了用户查找想要的有用信息的难度,降低用户的信息获取效率;垃圾网页还往往与病毒、木马软件等结合,对用户的信息安全造成严重的影响。对于网络资源环境而言,由于国家法律法规的限制,搜索引擎通常不会为色情、赌博等非法网络内容提供竞价广告服务,这使得借助作弊方式提升排名成为了这些内容提供网站的主要选择,垃圾网页中因而也充斥着各类非法内容,而这种加入作弊技术的非法内容网页往往会造成更广泛的不良影响,更严重的破坏网络资源环境。对于搜索引擎系统而言,垃圾网页的存在导致数据索引里充斥无用页面,浪费大量存储空间和处理时间,从而加大搜索引擎在处理每个查询时的消耗,降低搜索处理效率,同时降低用户对搜索引擎的信任度。
现有垃圾网页识别方法的一种是针对基于内容作弊的识别研究工作方面,针对垃圾页面的URL特征及常用短语特征进行了分析,并对基于MSN搜索抓取的1.05亿网页进行了页面内容特征提取,使用了包括标题长度、词语的平均长度、可见内容的比例、内容压缩比等特征来区分垃圾网页与正常网页。在此基础上还使用了更多的内容特征来进行识别工作,其特征包括锚文本的数量、页面中含有热门词汇的数量等,并使用了排序学习方法对特征加以融合进行垃圾网页的识别。
另一种是基于链接结构分析的垃圾网页识别。等人在2004年提出的TrustRank算法则开启了一条利用链接结构信息识别垃圾网页的新途径,可以应用于包括内容作弊和链接作弊在内的多种垃圾网页的识别。尽管该方法缺乏对于链接结构图中噪音数据的应对方式,但仍有相当数量的研究者基于对TrustRank算法的改进提出了多个链接分析算法应用于垃圾网页识别,这些算法包括Anti-TrustRank,Truncated PageRank等。
以上垃圾网页识别工作在相对固定的网页测试集合上都获得了较好的识别效果,国际知名的垃圾网页评测Web Spam Challenge给出的评测结果很多达到80%以上的识别准确率,而不少相关论文给出的实验结果准确率则往往超过90%。然而,种种原因造成这些识别算法在应用于真实互联网环境时仍然面临着巨大的挑战,很难充分发挥其识别效果,这也造成了当今垃圾网页仍旧对搜索引擎应用造成巨大影响的事实。
现有技术的缺点主要如下:
(1)这些算法往往只能针对某种特定类型的垃圾网页进行识别,缺乏识别的鲁棒性,且垃圾网页的作弊形式层出不穷,尽管识别算法对于某类垃圾网页的识别性能很高,但无法对其他类型的垃圾进行识别,垃圾网页作者一旦采用新的作弊形式,这些算法就往往会失去识别效用。
(2)随着作弊形式的发展,不少算法需要耗费大量计算、存储或带宽资源的方式进行垃圾识别,例如,对网页内容进行多元语言模型构建、对网页进行多次抓取、对网页脚本进行深层解析等,这使得这些算法识别垃圾网页的效率与搜索引擎的在线服务需求不相符合,因而无法应用于实际搜索引擎服务中。
发明内容
本发明的目的旨在至少解决上述的技术缺陷之一。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310029963.X/2.html,转载请声明来源钻瓜专利网。