[发明专利]可视化网页收录检测方法有效
申请号: | 201310006217.9 | 申请日: | 2013-01-08 |
公开(公告)号: | CN103092937A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 刘云剑;姚健;潘柏宇;卢述奇;黄冬 | 申请(专利权)人: | 合一网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 可视化 网页 收录 检测 方法 | ||
技术领域
本发明涉及视频领域,特别是视频信息抓取领域。
背景技术
抓取系统,主要是信息收录方主动抓取所需的网页信息。在整个流程中,选 择收录哪些网页,一方面是系统制定一定的规则,只对符合规则的网页信息进行 收录;另一方面,也提供网站提交入口,让网站的所有者,自行提交URL给抓取 系统,抓取系统在根据过滤规则和爬虫协议(robots.txt是一种存放于网站根 目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络 蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被 漫游器获取的。)进行信息抓取。
目前评价收录系统是否完善主要有几个方面:
1、收录内容是否全面
2、收录内容是否快速
3、是否遵守爬虫协议和是否智能抓取新的网页及不重复抓取,避免导致源服 务器压力过大、带宽等资源浪费
在系统的开发阶段、测试阶段、运行阶段以及运行期的不断优化阶段。我们都会 涉及到如何判断我们的系统是否达到设计的预期、是否在不断的完善、以及如何 帮助相关人员方便的反馈各种问题和信息。
目前没有看到可以通过这种可视化的技术来完成检测工作,常用的方式,在 网页中找出URL链接,然后在通过人工到收录网页库中去查询。存在如下缺陷: 1、非常麻烦,需要人工参与,效率低下;2、不能可视化。
发明内容
本发明就是为了克服老旧方案的这些局限性,这些需求促使我们设计出了该 技术方案,该方案主要但不限于:
如何让系统的开发人员、测试人员、网站提供者在打开任何网页时,判断网 页中的链接是否已被收录、是否符合收录的规则及查看已收录(或已抓取)的网页 的收录的时间及提取的内容等信息,目前还未看到有效的实现和技术方案。
本方案提供一种可视化的效果,结合网络浏览器,将网络浏览器中打开网页 的链接用各种色块突出的标识出哪些已被收录;哪些是不符合收录规则的;哪些 是已扫描的;哪些可能是抓取系统漏掉的。这样就能让开发人员、测试人员、网 站提供者等使用者,非常方便的看到一个网页中各个链接的被收录情况、其中主 要有下面几种信息可通过这个可视化装置看到:
1、如果一个链接被标识出“已收录”,那么可以将鼠标放在链接旁边的色 块上,可详细看到该链接被收录的时间、网页的标题信息。
2、被标识出“已扫描”,那么可以将鼠标放在链接旁边的色块上,可详细 看到该链接被最近一次被扫描的时间。
3、被标识出“不符合收录规则”,那么表示,这一类链接所指向网页中的 信息,很有可能就不是收录系统想要或被认为不好的内容。如果人工 查看这类链接和所指向的网页内容是该被收录的内容,那么可提交该 链接给收录系统,便于收录系统的改进和优化。
4、被标识出“可能漏掉的”。那么这类链接有助于人工检验和配合改进收 录系统。
具体的,本发明提出了一种可视化网页收录检测方法,该方法具体包括:
S101、判断是否获取到页面的所有统一资源定位符URL,如果没有获取到URL, 则结束,否则执行步骤S102;
S102、将获取到的所有URL请求提交到服务器,并等待服务器的响应;
S103、服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构 化信息包括:是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构 化信息;
S104、遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置;
S105、根据服务器返回的结构化信息构造成html信息,并将所述html信 息显示在相应URL的绝对位置旁边,并修改URL在网络浏览器中显示的颜色;
S106、通过网络浏览器显示不同颜色的URL以及相应的html信息。
根据本发明另一个方面,其中在S101步骤之前,还包括:
抓取系统根据预定的抓取规则将所有抓取过的URL记录在所述服务器上。
根据本发明另一个方面,其中,步骤S102中进一步包括通过AJAX请求将 所述URL提交到所述服务器上。
根据本发明另一个方面,其中,所述服务器提供查询接口,用于接收AJAX 请求信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合一网络技术(北京)有限公司,未经合一网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310006217.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种匹配橡胶悬架用桥壳总成
- 下一篇:中空复合轮毂