[发明专利]可视化网页收录检测方法有效

专利信息
申请号: 201310006217.9 申请日: 2013-01-08
公开(公告)号: CN103092937A 公开(公告)日: 2013-05-08
发明(设计)人: 刘云剑;姚健;潘柏宇;卢述奇;黄冬 申请(专利权)人: 合一网络技术(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100080 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 可视化 网页 收录 检测 方法
【说明书】:

技术领域

发明涉及视频领域,特别是视频信息抓取领域。

背景技术

抓取系统,主要是信息收录方主动抓取所需的网页信息。在整个流程中,选 择收录哪些网页,一方面是系统制定一定的规则,只对符合规则的网页信息进行 收录;另一方面,也提供网站提交入口,让网站的所有者,自行提交URL给抓取 系统,抓取系统在根据过滤规则和爬虫协议(robots.txt是一种存放于网站根 目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络 蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被 漫游器获取的。)进行信息抓取。

目前评价收录系统是否完善主要有几个方面:

1、收录内容是否全面

2、收录内容是否快速

3、是否遵守爬虫协议和是否智能抓取新的网页及不重复抓取,避免导致源服 务器压力过大、带宽等资源浪费

在系统的开发阶段、测试阶段、运行阶段以及运行期的不断优化阶段。我们都会 涉及到如何判断我们的系统是否达到设计的预期、是否在不断的完善、以及如何 帮助相关人员方便的反馈各种问题和信息。

目前没有看到可以通过这种可视化的技术来完成检测工作,常用的方式,在 网页中找出URL链接,然后在通过人工到收录网页库中去查询。存在如下缺陷: 1、非常麻烦,需要人工参与,效率低下;2、不能可视化。

发明内容

本发明就是为了克服老旧方案的这些局限性,这些需求促使我们设计出了该 技术方案,该方案主要但不限于:

如何让系统的开发人员、测试人员、网站提供者在打开任何网页时,判断网 页中的链接是否已被收录、是否符合收录的规则及查看已收录(或已抓取)的网页 的收录的时间及提取的内容等信息,目前还未看到有效的实现和技术方案。

本方案提供一种可视化的效果,结合网络浏览器,将网络浏览器中打开网页 的链接用各种色块突出的标识出哪些已被收录;哪些是不符合收录规则的;哪些 是已扫描的;哪些可能是抓取系统漏掉的。这样就能让开发人员、测试人员、网 站提供者等使用者,非常方便的看到一个网页中各个链接的被收录情况、其中主 要有下面几种信息可通过这个可视化装置看到:

1、如果一个链接被标识出“已收录”,那么可以将鼠标放在链接旁边的色 块上,可详细看到该链接被收录的时间、网页的标题信息。

2、被标识出“已扫描”,那么可以将鼠标放在链接旁边的色块上,可详细 看到该链接被最近一次被扫描的时间。

3、被标识出“不符合收录规则”,那么表示,这一类链接所指向网页中的 信息,很有可能就不是收录系统想要或被认为不好的内容。如果人工 查看这类链接和所指向的网页内容是该被收录的内容,那么可提交该 链接给收录系统,便于收录系统的改进和优化。

4、被标识出“可能漏掉的”。那么这类链接有助于人工检验和配合改进收 录系统。

具体的,本发明提出了一种可视化网页收录检测方法,该方法具体包括:

S101、判断是否获取到页面的所有统一资源定位符URL,如果没有获取到URL, 则结束,否则执行步骤S102;

S102、将获取到的所有URL请求提交到服务器,并等待服务器的响应;

S103、服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构 化信息包括:是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构 化信息;

S104、遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置;

S105、根据服务器返回的结构化信息构造成html信息,并将所述html信 息显示在相应URL的绝对位置旁边,并修改URL在网络浏览器中显示的颜色;

S106、通过网络浏览器显示不同颜色的URL以及相应的html信息。

根据本发明另一个方面,其中在S101步骤之前,还包括:

抓取系统根据预定的抓取规则将所有抓取过的URL记录在所述服务器上。

根据本发明另一个方面,其中,步骤S102中进一步包括通过AJAX请求将 所述URL提交到所述服务器上。

根据本发明另一个方面,其中,所述服务器提供查询接口,用于接收AJAX 请求信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合一网络技术(北京)有限公司,未经合一网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310006217.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top