[发明专利]Web网站死链检测方法无效
| 申请号: | 201210264476.7 | 申请日: | 2012-07-29 |
| 公开(公告)号: | CN102752154A | 公开(公告)日: | 2012-10-24 |
| 发明(设计)人: | 蔡皖东;姚卓;姚烨 | 申请(专利权)人: | 西北工业大学 |
| 主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08;G06F17/30 |
| 代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
| 地址: | 710072 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | web 网站 检测 方法 | ||
1.一种Web网站死链检测方法,其特征在于包括以下步骤:
(1)判断种子列表seedURLs中的URL的合法性,如果合法放到URL库A中,否则把该URL和错误原因记录到死链的errorSite队列中,进入步骤(6);
(2)死链分析和判断操作:
①如果A非空,取出一个URL X放入缓存的NamedSite队列中,如果X的域名不是数字形式,把X放到队列dnsSite队列中,进入步骤②,否则进入步骤④;如果A为空,算法结束,死链判断完毕,进入步骤(6);
②向DNS服务器发送链接X的域名查询请求;
③DNS服务器通过递归查询返回链接X的IP地址X.IP,如果递归查询失败,则deadlink(X)=1,发生DNS解析错误,把X和错误原因记录到死链的errorSite文件中,返回步骤①;
④与X.IP建立一个TCP连接后,向Web服务器发送消息请求,请求资源X.R,请求消息中包括GET方法、资源指示符、请求头域以及实体头域;
⑤Web服务器接收和解析一个请求消息后,发出一个HTTP响应消息R,响应消息中包含状态行S、响应头域以及实体E;
⑥取S的第一个数字S.N,如果S.N=4或者S.N=5,则deadlink(X)=1,把X和错误原因记录到死链的errorSite文件中,返回步骤①;如果S.N=3,查看响应头域的Location字段,如果内容为空或者是不合语法的URL,则deadlink(X)=1,发生重定向错误,把X和错误原因记录到死链的errorSite文件中,返回步骤①;
⑦取实体E进行分析,如果实体的长度E.Length=0,则deadlink(X)=1,把X和错误原因记录到死链文件中,返回步骤①;
⑧deadlink(X)=0,进入步骤(3);
(3)提取实体E中的所有超链接;
(4)对提取出的超链接进行预处理,首先是链接筛选,把网页深度>5的URL或者不合语法的URL过滤掉,然后进行去重处理,使用Bloom filter算法删除掉与URL库A中MD5值相同的URL;
(5)把精简后的链接加入到URL库A中,进入步骤(2);
(6)输出死链文件中的死链及其原因,并向网络管理员发送邮件通知。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210264476.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:集团无绳电话交换机
- 下一篇:一种新型的锂离子聚合物电池及其封装工艺





