[发明专利]页面检测方法及装置有效
申请号: | 201310528389.2 | 申请日: | 2013-10-30 |
公开(公告)号: | CN104598458B | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 陆中振;黄达文;卓居超 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张颖玲 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面 检测 方法 装置 | ||
本发明公开一种页面检测方法及装置,本发明实施例收集已在用户操作界面上显示的预设数量的网页所对应的网址,并对已收集的网址进行排重处理;对排重处理后的网址进行死链失效页检测,获取初步检测为死链失效页的网址;将初步检测为死链失效页的网址与预先建立的黑名单进行比对;若初步检测为死链失效页的网址命中所述黑名单中的站点,则判定命中所述黑名单中站点的网址为死链失效页;具有提高死链失效页检测准确性的有益效果,降低了对死链失效页检测的误判率。
技术领域
本发明涉及互联网技术,尤其涉及一种对死链失效页的页面检测方法及装置。
背景技术
由于网络页面具有较强的时效性,因此在搜索引擎收录的大量网页中难免会存在一定数量的死链失效页。目前,对死链失效页的检测方法主要是利用一些检测工具对抓取的相应站点的网页链接进行检测;检测系统根据网页链接的返回信息,并结合对网页内容的分析结果,识别检测的网页链接是否为死链失效页。
这种方式针对单个或者极少量的网页链接的检测,准确性较高;但对于大批量的网页,上述检测系统将面临较高的站点压力和站点封禁等问题,采用上述检测方式得出的死链失效页的误判率很高。
发明内容
鉴于此,有必要提供一种针对死链失效页的页面检测方法及装置,以降低对死链失效页检测的误判率。
本发明实施例公开了一种页面检测方法,包括以下步骤:
收集已在用户操作界面上显示的预设数量的网页所对应的网址,并对已收集的网址进行排重处理;
对排重处理后的网址进行死链失效页检测,获取初步检测为死链失效页的网址;
将初步检测为死链失效页的网址与预先建立的黑名单进行比对;
若初步检测为死链失效页的网址命中所述黑名单中的站点,则判定命中所述黑名单中站点的网址为死链失效页。
本发明实施例还公开一种页面检测装置,包括:
数据收集模块,用于收集已在用户操作界面上显示的预设数量的网页所对应的网址,并对已收集的网址进行排重处理;
页面初检模块,用于对排重处理后的网址进行死链失效页检测,获取初步检测为死链失效页的网址;
页面判定模块,用于将初步检测为死链失效页的网址与预先建立的黑名单进行比对;若初步检测为死链失效页的网址命中所述黑名单中的站点,则判定命中所述黑名单中站点的网址为死链失效页。
本发明实施例收集已在用户操作界面上显示的预设数量的网页所对应的网址,并对已收集的网址进行排重处理;对排重处理后的网址进行死链失效页检测,获取初步检测为死链失效页的网址;将初步检测为死链失效页的网址与预先建立的黑名单进行比对;若初步检测为死链失效页的网址命中所述黑名单中的站点,则判定命中所述黑名单中站点的网址为死链失效页;与现有技术中直接将系统检测出的死链失效页判定为真正的死链失效页的方法,本发明实施例具有提高死链失效页检测准确性的有益效果,降低了对死链失效页检测的误判率。
附图说明
图1是本发明页面检测方法第一实施例流程示意图;
图2是本发明页面检测方法中,收集进行页面检测的网址一实施例流程示意图;
图3是本发明页面检测方法第二实施例流程示意图;
图4是本发明页面检测方法中,建立黑名单与被封名单一实施例流程示意图;
图5是本发明页面检测装置第一实施例功能模块示意图;
图6是本发明页面检测装置第二实施例功能模块示意图;
图7是本发明页面检测装置第三实施例功能模块示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310528389.2/2.html,转载请声明来源钻瓜专利网。