[发明专利]门户网站的死链检查方法和装置有效
| 申请号: | 201410665988.3 | 申请日: | 2014-11-20 |
| 公开(公告)号: | CN104331335B | 公开(公告)日: | 2018-03-23 |
| 发明(设计)人: | 王潇;孙建;张淑娟;顾广宇 | 申请(专利权)人: | 国家电网公司;国网安徽省电力公司电力科学研究院;国网安徽省电力公司六安供电公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F17/30 |
| 代理公司: | 北京超凡志成知识产权代理事务所(普通合伙)11371 | 代理人: | 栾波 |
| 地址: | 100031 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 门户 网站 检查 方法 装置 | ||
技术领域
本发明涉及通信领域,具体而言,涉及门户网站的死链检查方法和装置。
背景技术
用户在访问网页时,有时会遇到死链现象,即用户当前访问的服务器的地址已经改变了,无法通过用户当前提供的地址链接到该服务器。现有技术中引入了一种死链检测技术方案,该方案对检测目标进行宽度遍历,首先对种子列表和URL队列初始化,再进行死链分析和判断操作,然后提取实体E中的所有超链接,对提取的所有超链接进行网页去重、链接筛选等预处理提高数据采集效率,然后将处理后的URL加入URL队列继续进行检测。
发明人在研究中发现,现有技术中的死链检测技术采用单一进程的方式对网站的URL进行检查,尤其在对存在多个分站或多个子栏目的门户网站检查时,执行效率较差。
发明内容
有鉴于此,本发明实施例的目的在于提供门户网站的死链检查方法和装置,以提高死链的检查效率。
第一方面,本发明实施例提供了一种门户网站的死链检查方法,包括:根据门户网站的检查任务列表分配多个子线程;启动多个子线程,使子线程从其负责的检查任务的网站入口地址开始对网站进行逐层广度遍历检查,并将检查结果写入内存数据库;对多个子线程进行周期性轮询检查;将处于工作完毕状态的子线程在内存数据库中记录的检查结果写入本地数据库;根据本地数据库中记录的检查结果统计门户网站的死链情况。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,上述根据门户网站的检查任务列表分配多个子线程包括:为门户网站的检查任务列表中的每个检查任务分配一个子线程的个数。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,根据门户网站的检查任务列表分配多个子线程包括:根据平均分配原则和门户网站的检查任务列表中的检查任务总数选择子线程的个数;将检查任务列表中的检查任务平均分配给每个子线程。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,上述根据门户网站的检查任务列表分配多个子线程包括:根据门户网站的检查任务列表中的各个检查任务所属的门户网站子栏目或分站分配子线程。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,上述子线程从其负责的检查任务的网站入口地址开始对网站进行逐层广度遍历检查包括:当子线程发现当前地址在网站入口地址的域名或网站入口URL目录的范围之外或者当前地址与检查任务列表中的检查任务对应的地址重合,记录当前地址的链接状态,结束当前地址的逐层广度遍历检查。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,上述将处于工作完毕状态的子线程在内存数据库中记录的检查结果写入本地数据库包括:读取处于工作完毕状态的子线程在内存数据库中记录的检查结果;当检查结果中记录的死链的地址与本地数据库中记录的检查结果中的死链的地址相同时,将本地数据库中记录死链的统计次数加1;其中,检查结果包括:死链的地址、死链的状态编码、死链所在页面、死链的类型、死链的标题。
第二方面,本发明实施例还提供了一种门户网站的死链检查装置,包括:子线程分配模块,用于根据门户网站的检查任务列表分配多个子线程;子线程管理模块,用于启动多个子线程,使子线程从其负责的检查任务的网站入口地址开始对网站进行逐层广度遍历检查,并将检查结果写入内存数据库;轮询检查模块,用于对多个子线程进行周期性轮询检查;检查结果写入模块,用于将处于工作完毕状态的子线程在内存数据库中记录的检查结果写入本地数据库;死链情况统计模块,用于根据本地数据库中记录的检查结果统计门户网站的死链情况。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,上述子线程分配模块包括以下单元之一:一对一分配单元,用于为门户网站的检查任务列表中的每个检查任务分配一个子线程的个数;平均分配单元,用于根据平均分配原则和门户网站的检查任务列表中的检查任务总数选择子线程的个数,将检查任务列表中的检查任务平均分配给每个子线程;按栏分配单元,用于根据门户网站的检查任务列表中的各个检查任务所属的门户网站子栏目或分站分配子线程。结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,上述子线程管理模块包括:遍历处理单元,用于设置子线程在发现当前地址在网站入口地址的域名或网站入口URL目录的范围之外或者当前地址与检查任务列表中的检查任务对应的地址重合时,记录当前地址的链接状态,结束当前地址的逐层广度遍历检查。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;国网安徽省电力公司电力科学研究院;国网安徽省电力公司六安供电公司,未经国家电网公司;国网安徽省电力公司电力科学研究院;国网安徽省电力公司六安供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410665988.3/2.html,转载请声明来源钻瓜专利网。





