[发明专利]网页中隐藏URL的提取方法、装置和系统有效
| 申请号: | 201310226579.9 | 申请日: | 2013-06-07 |
| 公开(公告)号: | CN103268361B | 公开(公告)日: | 2019-05-31 |
| 发明(设计)人: | 周正吉;李鸣雷;张彪;王丹;练坤梅;刘磊;许静 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司;南开大学 |
| 主分类号: | G06F16/955 | 分类号: | G06F16/955 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 隐藏 url 提取 方法 装置 系统 | ||
本发明提出一种网页中隐藏动态统一资源定位符URL的提取方法、装置和系统,其中该方法包括以下步骤:获取并加载网页;对网页进行分析以提取网页中的JavaScript脚本中的事件句柄代码;以及通过JavaScript引擎加载事件句柄代码,并根据加载结果获取网页中隐藏的URL。根据本发明实施例方法,一方面在对网站进行安全测试时可以覆盖更多的隐藏在网页中的URL,提高了安全测试的效率和覆盖率,另一方面可以将本发明的方法提供给网络爬虫,网络爬虫通过获取的页面中隐藏的URL可以更深层次的挖掘网络中的信息,提升了网络爬虫的网络覆盖率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种网页中隐藏URL的提取方法、装置和系统。
背景技术
网络爬虫获取互联网中网页的URL(Uniform Resource Locator,动态统一资源定位符),以通过搜索引擎等提供给用户更多的信息服务。
目前,网络爬虫可以利用页面标签正则表达式匹配获取页面中的URL,这种静态的获取方法存在以下缺点:(1)无法获取页面加载过程中产生的URL;(2)无法获取页面加载后被服务器重定向的URL;(3)无法获取动态的网页中隐藏的URL。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种网页中隐藏URL的提取方法。该方法一方面在对网站进行安全测试时可以覆盖更多的隐藏在网页中的URL,提高了安全测试的效率和覆盖率。
本发明的第二个目的在于提出一种网页中隐藏URL的提取装置。
本发明的第三个目的在于提出一种网页中隐藏URL的提取系统。
为了实现上述目的,本发明第一方面实施例的文件中漏洞的检测方法包括以下步骤:获取并加载网页;对所述网页进行分析以提取所述网页中的JavaScript脚本中的事件句柄代码;以及通过JavaScript引擎加载所述事件句柄代码,并根据加载结果获取所述网页中隐藏的URL。
根据本发明实施例的网页中隐藏URL的提取方法,浏览器通过JavaScript引擎加载从JavaScript脚本中提取的事件句柄,并根据加载结果获取网页中隐藏的URL,一方面在对网站进行安全测试时可以覆盖更多的隐藏在网页中的URL,提高了安全测试的效率和覆盖率,另一方面可以将本发明的方法提供给网络爬虫,网络爬虫通过获取的页面中隐藏的URL可以更深层次的挖掘网络中的信息,提升了网络爬虫的网络覆盖率。
为了实现上述目的,本发明第二方面实施例的网页中隐藏URL的提取装置,包括:网页获取模块,用于获取并加载网页;分析提取模块,用于对所述网页进行分析以提取所述网页中的JavaScript脚本中的事件句柄代码;以及加载及URL获取模块,用于通过JavaScript引擎加载所述事件句柄代码,并根据加载结果获取所述网页中隐藏的URL。
根据本发明实施例的网页中隐藏URL的提取装置,浏览器通过JavaScript引擎加载从JavaScript脚本中提取的事件句柄,并根据加载结果获取网页中隐藏的URL,一方面在对网站进行安全测试时可以覆盖更多的隐藏在网页中的URL,提高了安全测试的效率和覆盖率,另一方面可以将本发明的方法提供给网络爬虫,网络爬虫通过获取的页面中隐藏的URL可以更深层次的挖掘网络中的信息,提升了网络爬虫的网络覆盖率。
为了实现上述目的,本发明第三方面实施例的网页中隐藏URL的提取系统,包括:搜索引擎;以及如权利要求6-9任一项所述的网页中隐藏URL的提取装置,所述提取装置将所述网页中隐藏的URL提供至所述搜索引擎。
根据本发明实施例的网页中隐藏URL的提取系统,搜索引擎通过回调模块回调的页面中隐藏的URL可以更深层次的挖掘网络中的信息,提升了网络覆盖率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司;南开大学,未经百度在线网络技术(北京)有限公司;南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310226579.9/2.html,转载请声明来源钻瓜专利网。





