[发明专利]伪静态URL的筛除方法、系统及网页爬取方法、系统有效
申请号: | 201410081110.5 | 申请日: | 2014-03-06 |
公开(公告)号: | CN104899219B | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 王笑天;董晓琼;罗启武 | 申请(专利权)人: | 上海携程商务有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;王婧荷 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 静态 url 筛除 方法 系统 网页 | ||
本发明公开了一种伪静态URL的筛除方法、系统及网页爬取方法、系统。该筛除方法包括以下步骤:获取待测URL列表;读取URL正则列表并建立一数据库;选取一URL与正则表达式逐一匹配;将数据库中的URL根据路径分类;比对该URL和同路径URL的参数及值以确定是否设标志位;根据URL相似度及网页结构相似度决定是否设标志位;将该URL存储至数据库中。本发明的伪静态URL的筛除方法、系统及网页爬取方法、系统针对网站使用的伪静态技术,实现了对伪静态URL的自动识别,以过滤大量重复、无用的伪静态URL,提取有价值的URL进行安全检测,提高了爬行效率和爬行准确性。
技术领域
本发明涉及一种伪静态URL的筛除方法、系统及网页爬取方法、系统。
背景技术
随着互联网技术迅猛发展,静态网页的时代已然成为历史,如今WEB2.0模式的影响力使得越来越多的网站向着动态、交互性的方向快速转变。由于针对JS技术(JS即JavaScript,是一种基于对象和事件驱动的客户端脚本语言)和伪静态技术的应用愈发广泛,基于传统获取网页源码的爬虫已力不从心。
如今,大型网站的内容越来越多,为了提高访问速度和获得良好的搜索引擎优化,大部分网站都会使用伪静态技术。伪静态是相对真实静态而言的,伪静态技术实际上利用了动态脚本处理方法通,但展现方式是以静态页面的方式,从而在利用动态脚本的同时保持了对搜索引擎的友好面。采用伪静态技术的链接会按照规则生成一系列URL,而现有的爬虫技术由于没有网页相似度方面的检测,因而会将伪静态的URL作为新产生的URL收录在数据库中。如此就造成在安全检测等方面的应用中,爬虫会提取大部分相同或是同一个伪静态规则对应的同一个URL,导致扫描效率大幅下降。
发明内容
本发明要解决的技术问题是为了克服现有技术中的爬虫难以识别采用伪静态的URL,从而导致爬虫会提取大量相同的伪静态规则对应的URL,造成扫描效率大幅下降的缺陷,提出一种伪静态URL的筛除方法、系统及网页爬取方法、系统。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供了一种伪静态URL的筛除方法,其特点在于,包括以下步骤:
S1、获取记录有多个URL的一待测URL列表;
S2、读取一URL正则列表,该URL正则列表包括若干正则表达式,并建立一数据库;
S3、从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则执行S8,若和所有正则表达式匹配失败则执行S41;
S41、在该数据库中搜索和该URL具有相同路径的URL作为同路径URL,将该数据库中的其他URL作为不同路径URL;
S42、将该URL逐一同所有同路径URL进行参数及参数的值的比对,在同所有同路径URL的比对结果均为参数不相同的情况下,对该URL设置爬虫标志位和检测标志位并执行S5,在同至少一个同路径URL的比对结果为参数相同且参数的值属于非数字型的情况下执行S43,在同至少一个同路径URL的比对结果为参数相同且参数的值属于数字型的情况下执行S7;
S43、判断同路径URL中和该URL具有相同参数的URL的个数是否大于预设的一第一阈值,若是则执行S7,若否则对该URL设置爬虫标志位和检测标志位并执行S5;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携程商务有限公司,未经上海携程商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410081110.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:外语文本遥控查询指路机信息的查询装置
- 下一篇:数据读写方法及数据读写装置