[发明专利]检测网页断链的方法及装置有效
申请号: | 201611155205.2 | 申请日: | 2016-12-14 |
公开(公告)号: | CN108228614B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 孙德彬 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 网页 方法 装置 | ||
本发明公开了一种检测网页断链的方法及装置,涉及互联网技术领域,用于解决现有检测网站中断链的网页的方式准确率比较低的问题。本发明的主要技术方案为:确定待检测网页,并在待检测网页部署用户行为分析代码,通过用户行为分析代码获取点击网页和着陆网页,点击网页为用户点击链接的网页,着陆网页为用户通过点击操作后访问到达的网页,通过对点击网页和着陆网页进行比较确定断链网页。本发明主要用于检测网页断链。
技术领域
本发明涉及互联网技术领域,尤其涉及一种检测网页断链的方法及装置。
背景技术
随着互联网的日益普及,互联网在我们的生活中扮演了一个重要的角色,我们可以浏览相应网站获取自己需要的信息。但是在我们在日常浏览网站时,经常会遇到网页断链的情况。网页断链是指网站中存在的不可访问的链接资源,而且断链在搜索引擎优化中是一个重要的指标。如何能够精准的检测出网站中断链的网页并进行修复,是一个值得重视和探究的问题。
目前的断链检测方式是:通过爬虫爬取的方式来检测网站中断链的网页。有些时候采用爬虫爬取的方式来检测断链的网页,无法对其中一些网站进行爬虫爬取,因为这些网站采用了特殊技术,比如网站采用了防爬机制、通过直译式脚本语言加载网页,因此这些采用特殊技术的网站中存在的断链网页无法被检测出。例如,现有一百个网页,其中二十个网页采用了防爬机制或者通过直译式脚本语言加载,在这二十个网页中有十个是断链的网页,其余的八十个网页中有三十个是断链的网页,通过爬虫爬取的方式对这一百个网页进行检测,只能检测到这八十个网页中的三十个断链的网页,而二十个采用特殊技术的网页中断链的网页并不能被检测出。因此现有的检测网站中断链的网页的方式准确率比较低。
发明内容
鉴于上述问题,本发明提供一种检测网页断链的方法及装置,主要目的在于提高检测网站中断链网页的准确率。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种检测网页断链的方法,该方法包括:
确定待检测网页,并在待检测网页部署用户行为分析代码;
通过用户行为分析代码获取点击网页和着陆网页,点击网页为用户点击链接的网页,着陆网页为用户通过点击操作后访问到达的网页;
通过对点击网页和着陆网页进行比较确定断链网页。
优选的,在通过用户行为分析代码记录点击网页和着陆网页之后,该方法进一步包括:
对点击网页和着陆网页的记录分别进行去重处理。
优选的,通过对点击网页和着陆网页进行比较确定断链网页,包括:
将点击网页与着陆网页的行为数据记录进行匹配;
若点击网页没有对应的着陆网页,则确定点击网页为断链网页。
优选的,在通过对点击网页和着陆网页进行比较确定断链网页之后,该方法进一步包括:
通过爬虫爬取对待检测网页中未能部署代码的网页进行检测确定断链网页。
优选的,在通过爬虫爬取对待检测网页中未能部署代码的网页进行检测确定断链网页之后,该方法进一步包括:
对断链网页发起访问请求;
若能够请求到对应的网页,则取消断链网页的判定。
另一方面,本发明实施例还提供一种检测网页断链的装置,该装置包括:
部署单元,用于确定待检测网页,并在待检测网页部署用户行为分析代码;
获取单元,用于通过用户行为分析代码获取点击网页和着陆网页,点击网页为用户点击链接的网页,着陆网页为用户通过点击操作后访问到达的网页;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611155205.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据的读取方法及装置
- 下一篇:一种农业自动化滴灌供水用程值归档方法