[发明专利]一种数据处理方法和客户端设备有效
申请号: | 201611159537.8 | 申请日: | 2016-12-14 |
公开(公告)号: | CN108228623B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 何熠皓 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/955 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 客户端 设备 | ||
本发明实施例提供了一种数据处理方法和客户端设备,能够让用户通过简单的表达式,对目标域名下的url进行筛选。本发明实施例提供了一种数据处理方法,包括:客户端设备获取用户输入的模板信息,所述模板信息用于描述url的匹配规则,所述url为与所述模板信息对应的目标域名下的url;所述客户端设备按照预置的规则将所述模板信息转化为正则表达式;所述客户端设备在所述url中获取与所述正则表达式匹配的第一目标url;所述客户端设备将所述第一目标url添加到待爬取队列。
技术领域
本发明涉及客户端领域,尤其涉及一种数据处理方法和客户端设备。
背景技术
网络爬虫,是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。
在使用网络爬虫的过程中,客户端设备获取需要爬取的目标域名,客户端设备获取目标域名下的所有url,并将所有url添加到爬取队列进行爬取。
然而,实际应用中,用户可能并不需要对目标域名下的所有url进行爬取,而是只希望爬取目标域名下的部分url,例如某些子目录或子域名下的url,此时,若网络爬虫仍对所有url进行爬取,将降低爬取效率。
发明内容
本发明实施例提供了一种数据处理方法和客户端设备,能够让用户通过简单的表达式,对目标域名下的url进行筛选。
有鉴于此,本发明实施例提供了一种数据处理方法,包括:
客户端设备获取用户输入的模板信息,所述模板信息用于描述url的匹配规则,所述url为与所述模板信息对应的目标域名下的url;
所述客户端设备按照预置的规则将所述模板信息转化为正则表达式;
所述客户端设备在所述url中获取与所述正则表达式匹配的第一目标url;
所述客户端设备将所述第一目标url添加到待爬取队列。
在一些可能的实现方式中,所述模板信息中包括通配符,所述客户端设备按照预置的规则将所述模板信息转化为正则表达式包括:
所述客户端设备获取所述模板信息对应的目标域名;
所述客户端设备确定所述模板信息的文本字符;
所述客户端设备将所述模板信息中的通配符转化为正则表达式的字符;
所述客户端设备根据所述目标域名,所述文本字符和所述正则表达式的字符确定所述正则表达式。
在一些可能的实现方式中,所述客户端设备在所述url中获取与所述正则表达式匹配的第一目标url包括:
所述客户端设备从所述url中获取候选url;
所述客户端设备将所述候选url的全文与所述正则表达式进行匹配得到目标候选url;
若所述目标候选url与所述候选url的长度相同,则所述客户端设备确定所述候选url为第一目标url。
在一些可能的实现方式中,所述客户端设备在所述url中获取与所述正则表达式匹配的第一目标url之后,还包括:
所述客户端设备获取第二目标url,所述第二目标url为在所述url中除所述第一目标url以外的url;
所述客户端设备将所述第二目标url添加到待爬取队列。
本发明实施例还提供了一种客户端设备,包括:
第一获取单元,用于获取用户输入的模板信息,所述模板信息用于描述url的匹配规则,所述url为与所述模板信息对应的目标域名下的url;
转化单元,用于按照预置的规则将所述模板信息转化为正则表达式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611159537.8/2.html,转载请声明来源钻瓜专利网。