[发明专利]Web网站死链检测方法无效
申请号: | 201210264476.7 | 申请日: | 2012-07-29 |
公开(公告)号: | CN102752154A | 公开(公告)日: | 2012-10-24 |
发明(设计)人: | 蔡皖东;姚卓;姚烨 | 申请(专利权)人: | 西北工业大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08;G06F17/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | web 网站 检测 方法 | ||
技术领域
本发明涉及一种Web网站检测方法,特别是涉及一种Web网站死链检测方法。
背景技术
死链是指Web网站中处于路径不可达状态的Web链接,它是导致网站性能下降的重要原因。随着互联网的快速发展,网站中的各种信息在急速增长,维护网站的内容完整性以及性能变得十分复杂。Web网页的一个重要特点是动态性,即网页内容可以任意增加、删除和更新。这一特点使Web服务成为具有吸引力的信息传播媒介,同时也面临着死链问题的挑战,Web链接相互引用加剧了死链的产生,损害了网站内容完整性,导致网站性能严重下降。
死链的影响是多方面的。佐治亚理工学院的GVU中心曾做过一项调查发现,大约60%的用户反映死链问题是使用网络时最反感的问题。此外,为了提高搜索效率和搜索结果的质量,搜索引擎很少会将带有大量死链的站点放在前面,因此死链会导致网站被搜索引擎降权。
研究发现,一般Web网页的平均预期寿命是44天,URL的随机测试集合在四年的时间里损失了大约67%的URL才达到稳定状态。Spinellies对发表在ACM和IEEE上的论文链接的可访问性做了大量调查实验之后,发现28%的URL在五年之后不可用,41%在七年之后不可用,并且在所有不可用的网络链接中,大约60%是404错误(国际组织规定的一类客户端错误,当Web服务器不希望精确指出请求为何被拒绝或者没有找到任何可以匹配的URL资源时使用该状态码)。因此,有效地检测出网站里的各种死链,对于维护网站性能、保持网站内容完整性变得十分重要。由于一个大型网站上的Web链接数以万计,链接有效性检验是一个非常耗时的任务。因此,如何快速、准确和自动地检测Web网站中的死链值得深入研究。
文献1“B.Haslhofer,N.Popitsch.DSNotify-detecting and fixing broken links in linked data sets[c]//DEXA09.20th International Colocated with DEXA.Austria,Linz,2009:89-93”设计了一个LOD数据源的加载项,通过比较两个链接的相似值来判断404错误链接是否发生转移或者被删除,并在客户端浏览器显示不同的检测信息,从而部分保证LOD数据源的链接完整性。该方法只面对客户端用户,因此只能保证用户体验,不能根本解决死链问题。其次,该方法需要浏览器频繁询问加载项,造成浏览器性能下降,并且检测效率低。
文献2“N.Popitsch,B.Haslhofer.Dsnotify:handling broken links in the web of data[c]//Proc of WWW.New york,NY,USA:ACM,2010:761-770”首先定义了两种链接错误类型,结构错误链接和语义错误链接,接着定义了引起结构错误的链接出现的事件,最后根据改进前人设计的11种不同解决方案,提出了DSNotify策略。该策略提取出每个链接的特征向量,根据对链接的元数据和内容的判断,把链接分别放到3个索引队列,最后由索引来判断产生死链的事件。该方法的目的是修改发送404错误的页面,所以只提取和检测与重定向和删除的状态码相关的链接,但所查找到的死链覆盖面不全面。
发明内容
为了克服现有的Web网站死链检测方法覆盖率低的不足,本发明提供一种Web网站死链检测方法。该方法首先根据Web链接的调度过程修改遍历策略,自动获取网站链接信息,得到较全面的网站链接信息。然后对新生成的URL库进行精简,去除重复的网页并且筛选出满足条件的链接,提高数据采集效率。最后根据死链产生的原因和分类,给出了对应的检测方案,可以提高Web网站死链检测的覆盖率。
本发明解决其技术问题所采用的技术方案是:一种Web网站死链检测方法,其特点是包括以下步骤:
(1)判断种子列表seedURLs中的URL的合法性,如果合法放到URL库A中,否则把该URL和错误原因记录到死链的errorSite队列中,进入步骤(6)。
(2)死链分析和判断操作:
①如果A非空,取出一个URLX放入缓存的NamedSite队列中,如果X的域名不是数字形式,把X放到队列dnsSite队列中,进入步骤②,否则进入步骤④;如果A为空,算法结束,死链判断完毕,进入步骤(6);
②向DNS服务器发送链接X的域名查询请求;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210264476.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:集团无绳电话交换机
- 下一篇:一种新型的锂离子聚合物电池及其封装工艺