[发明专利]一种数据处理方法和客户端设备有效
申请号: | 201611159537.8 | 申请日: | 2016-12-14 |
公开(公告)号: | CN108228623B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 何熠皓 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/955 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 客户端 设备 | ||
1.一种数据处理方法,其特征在于,包括:
客户端设备获取用户输入的模板信息,所述模板信息用于描述 url 的匹配规则,所述url 为与所述模板信息对应的目标域名下的 url;
所述客户端设备按照预置的规则将所述模板信息转化为正则表达式;
所述客户端设备在所述 url 中获取与所述正则表达式匹配的第一目标 url;
所述客户端设备将所述第一目标 url 添加到待爬取队列;
所述客户端设备在所述 url 中获取与所述正则表达式匹配的第一目标 url,包括:所述客户端设备从所述 url 中获取候选 url;所述客户端设备将所述候选 url 的全文与所述正则表达式进行匹配得到目标候选 url;若所述目标候选url 与所述候选 url 的长度相同,则所述客户端设备确定所述候选 url 为第一目标 url。
2.根据权利要求 1 所述的数据处理方法,其特征在于,所述模板信息中包括通配符,所述客户端设备按照预置的规则将所述模板信息转化为正则表达式包括:
所述客户端设备获取所述模板信息对应的目标域名;
所述客户端设备确定所述模板信息的文本字符;
所述客户端设备将所述模板信息中的通配符转化为正则表达式的字符;
所述客户端设备根据所述目标域名,所述文本字符和所述正则表达式的字符确定所述正则表达式。
3.根据权利要求 1 至 2 中任一项所述的数据处理方法,其特征在于,所述客户端设备在所述 url 中获取与所述正则表达式匹配的第一目标 url 之后,还包括:
所述客户端设备获取第二目标 url,所述第二目标 url 为在所述 url 中除所述第一目标 url 以外的 url;
所述客户端设备将所述第二目标 url 添加到待爬取队列。
4.一种客户端设备,其特征在于,包括:
第一获取单元,用于获取用户输入的模板信息,所述模板信息用于描述url 的匹配规则,所述 url 为与所述模板信息对应的目标域名下的 url;
转化单元,用于按照预置的规则将所述模板信息转化为正则表达式;第二获取单元,用于在所述 url 中获取与所述正则表达式匹配的第一目标url;
第一添加单元,用于将所述第一目标 url 添加到待爬取队列;
所述第二获取单元包括:
第二获取模块,用于从所述 url 中获取候选 url;匹配模块,用于将所述候选 url 的全文与所述正则表达式进行匹配得到目标候选 url;
第三确定模块,用于若所述目标候选 url 与所述候选 url 的长度相同,则确定所述候选 url 为第一目标 url。
5.根据权利要求 4 所述的客户端设备,其特征在于,所述模板信息中包括通配符,所述转化单元包括:
第一获取模块,用于获取所述模板信息对应的目标域名;
第一确定模块,用于确定所述模板信息的文本字符;
转化模块,用于将所述模板信息中的通配符转化为正则表达式的字符;
第二确定模块,用于根据所述目标域名,所述文本字符和所述正则表达式的字符确定所述正则表达式。
6.根据权利要求 4 至 5 中任一项所述的客户端设备,其特征在于,所述客户端设备还包括:
第三获取单元,用于获取第二目标 url,所述第二目标 url 为在所述 url 中除所述第一目标 url 以外的 url;
第二添加单元,用于将所述第二目标 url 添加到待爬取队列。
7.一种客户端设备,其特征在于,包括:
输入装置、输出装置、处理器和存储器;
通过调用所述存储器存储的操作指令,所述处理器用于执行如下步骤:
获取用户输入的模板信息,所述模板信息用于描述 url 的匹配规则,所述url 为与所述模板信息对应的目标域名下的 url;
按照预置的规则将所述模板信息转化为正则表达式;
在所述 url 中获取与所述正则表达式匹配的第一目标 url;
将所述第一目标 url 添加到待爬取队列;
所述在所述 url 中获取与所述正则表达式匹配的第一目标 url,包括:所述客户端设备从所述 url 中获取候选 url;所述客户端设备将所述候选 url 的全
文与所述正则表达式进行匹配得到目标候选 url;若所述目标候选 url 与所述候选url 的长度相同,则所述客户端设备确定所述候选 url 为第一目标 url。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611159537.8/1.html,转载请声明来源钻瓜专利网。