[发明专利]一种数据处理方法和客户端设备有效

申请号：	201611159537.8	申请日：	2016-12-14
公开（公告）号：	CN108228623B	公开（公告）日：	2021-12-24
发明（设计）人：	何熠皓	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/9535;G06F16/955
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100080 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法客户端设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种数据处理方法和客户端设备，能够让用户通过简单的表达式，对目标域名下的url进行筛选。本发明实施例提供了一种数据处理方法，包括：客户端设备获取用户输入的模板信息，所述模板信息用于描述url的匹配规则，所述url为与所述模板信息对应的目标域名下的url；所述客户端设备按照预置的规则将所述模板信息转化为正则表达式；所述客户端设备在所述url中获取与所述正则表达式匹配的第一目标url；所述客户端设备将所述第一目标url添加到待爬取队列。

技术领域

本发明涉及客户端领域，尤其涉及一种数据处理方法和客户端设备。

背景技术

网络爬虫，是一种按照一定的规则，自动抓取万维网信息的程序或者脚本。

在使用网络爬虫的过程中，客户端设备获取需要爬取的目标域名，客户端设备获取目标域名下的所有url，并将所有url添加到爬取队列进行爬取。

然而，实际应用中，用户可能并不需要对目标域名下的所有url进行爬取，而是只希望爬取目标域名下的部分url，例如某些子目录或子域名下的url，此时，若网络爬虫仍对所有url进行爬取，将降低爬取效率。

发明内容

本发明实施例提供了一种数据处理方法和客户端设备，能够让用户通过简单的表达式，对目标域名下的url进行筛选。

有鉴于此，本发明实施例提供了一种数据处理方法，包括：

客户端设备获取用户输入的模板信息，所述模板信息用于描述url的匹配规则，所述url为与所述模板信息对应的目标域名下的url；

所述客户端设备按照预置的规则将所述模板信息转化为正则表达式；

所述客户端设备在所述url中获取与所述正则表达式匹配的第一目标url；