[发明专利]检测网页断链的方法及装置有效

申请号：	201611155205.2	申请日：	2016-12-14
公开（公告）号：	CN108228614B	公开（公告）日：	2022-03-18
发明（设计）人：	孙德彬	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F16/955	分类号：	G06F16/955
代理公司：	北京鼎佳达知识产权代理事务所(普通合伙) 11348	代理人：	王伟锋;刘铁生
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	检测网页方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种检测网页断链的方法及装置，涉及互联网技术领域，用于解决现有检测网站中断链的网页的方式准确率比较低的问题。本发明的主要技术方案为：确定待检测网页，并在待检测网页部署用户行为分析代码，通过用户行为分析代码获取点击网页和着陆网页，点击网页为用户点击链接的网页，着陆网页为用户通过点击操作后访问到达的网页，通过对点击网页和着陆网页进行比较确定断链网页。本发明主要用于检测网页断链。

技术领域

本发明涉及互联网技术领域，尤其涉及一种检测网页断链的方法及装置。

背景技术

随着互联网的日益普及，互联网在我们的生活中扮演了一个重要的角色，我们可以浏览相应网站获取自己需要的信息。但是在我们在日常浏览网站时,经常会遇到网页断链的情况。网页断链是指网站中存在的不可访问的链接资源，而且断链在搜索引擎优化中是一个重要的指标。如何能够精准的检测出网站中断链的网页并进行修复,是一个值得重视和探究的问题。

目前的断链检测方式是：通过爬虫爬取的方式来检测网站中断链的网页。有些时候采用爬虫爬取的方式来检测断链的网页，无法对其中一些网站进行爬虫爬取，因为这些网站采用了特殊技术，比如网站采用了防爬机制、通过直译式脚本语言加载网页，因此这些采用特殊技术的网站中存在的断链网页无法被检测出。例如，现有一百个网页，其中二十个网页采用了防爬机制或者通过直译式脚本语言加载，在这二十个网页中有十个是断链的网页，其余的八十个网页中有三十个是断链的网页，通过爬虫爬取的方式对这一百个网页进行检测，只能检测到这八十个网页中的三十个断链的网页，而二十个采用特殊技术的网页中断链的网页并不能被检测出。因此现有的检测网站中断链的网页的方式准确率比较低。

发明内容

鉴于上述问题，本发明提供一种检测网页断链的方法及装置，主要目的在于提高检测网站中断链网页的准确率。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明实施例提供了一种检测网页断链的方法，该方法包括：

确定待检测网页，并在待检测网页部署用户行为分析代码；

通过用户行为分析代码获取点击网页和着陆网页，点击网页为用户点击链接的网页，着陆网页为用户通过点击操作后访问到达的网页；

通过对点击网页和着陆网页进行比较确定断链网页。

优选的，在通过用户行为分析代码记录点击网页和着陆网页之后，该方法进一步包括：

对点击网页和着陆网页的记录分别进行去重处理。

优选的，通过对点击网页和着陆网页进行比较确定断链网页，包括：

将点击网页与着陆网页的行为数据记录进行匹配；

若点击网页没有对应的着陆网页，则确定点击网页为断链网页。