[发明专利]一种网页爬取方法及系统有效
| 申请号: | 201310198598.5 | 申请日: | 2013-05-24 |
| 公开(公告)号: | CN104182412B | 公开(公告)日: | 2017-08-04 |
| 发明(设计)人: | 赵黎;万鹏;周崎;王韬;何晓军;于光杰 | 申请(专利权)人: | 中国移动通信集团安徽有限公司;南京中兴软创科技股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京中誉威圣知识产权代理有限公司11279 | 代理人: | 郭振兴,丛芳 |
| 地址: | 230061 *** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网页 方法 系统 | ||
1.一种网页爬取方法,其特征在于,包括:
对样本网页进行训练得到数据提取条件;
爬取web网页;
将爬取到的web网页解析成dom树结构,得到web网页dom树,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据;
所述对样本网页进行训练得到数据提取条件包括:
获取样本网页及所要提取的数据;
将所述样本网页解析为dom树结构,得到样本网页dom树;
当所要提取的数据为内容数据时,遍历样本网页dom树的节点,分别将内容数据与节点属性值及节点内容进行比较,找到内容数据在样本网页dom树中的节点,然后从该节点回溯到样本网页dom树的根节点,将回溯中经历的各节点信息以及内容数据在节点中的位置记录为数据提取条件;
当所要提取的数据为URL地址时,遍历样本网页dom树的节点,将URL地址与节点内容进行比较,找到URL地址在样本网页dom树中的节点,然后从该节点回溯到样本网页dom树的根节点,将回溯中经历的各节点信息以及节点URL地址属性记录为数据提取条件。
2.根据权利要求1所述的方法,其特征在于,所述爬取web网页包括:
遍历URL队列,从URL队列中提取待爬取的URL;
根据所述待爬取的URL从互联网上爬取web网页。
3.根据权利要求1所述的方法,其特征在于,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据包括:
从所述web网页dom树的根节点开始,顺序使用数据提取条件中记录的各节点信息对所述web网页dom树中的节点进行比较匹配定位到所需数据的位置,提取所需数据;
当提取到的数据为新URL地址时,检查所述新URL地址是否已爬取或是否需要重新爬取;
当提取到的数据为内容数据时,存储所述内容数据。
4.一种网页爬取系统,其特征在于,包括:
网页训练装置,用于对样本网页进行训练得到数据提取条件;
网页爬取装置,用于从互联网上爬取web网页;
网页分析装置,用于将爬取到的web网页解析成dom树结构,得到web网页dom树,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据;
所述网页训练装置包括:
获取模块,用于获取样本网页及所要提取的数据;
解析装置,用于将所述样本网页解析为dom树结构,得到样本网页dom树;
条件生成装置,用于当所要提取的数据为内容数据时,遍历样本网页dom树的节点,分别将内容数据与节点属性值及节点内容进行比较,找到内容数据在样本网页dom树中的节点,然后从该节点回溯到样本网页dom树的根节点,将回溯中经历的各节点信息以及内容数据在节点中的位置记录为数据提取条件;当所要提取的数据为URL地址时,遍历样本网页dom树的节点,将URL地址与节点内容进行比较,找到URL地址在样本网页dom树中的节点,然后从该节点回溯到样本网页dom树的根节点,将回溯中经历的各节点信息以及节点URL地址属性记录为数据提取条件。
5.根据权利要求4所述的系统,其特征在于,还包括:URL队列管理装置,用于遍历URL队列,从URL队列中提取待爬取的URL;
所述网页爬取装置,用于根据所述待爬取的URL从互联网上爬取web网页。
6.根据权利要求5所述的系统,其特征在于,还包括:数据存储装置,
所述网页分析装置,用于从所述web网页dom树的根节点开始,顺序使用数据提取条件中记录的各节点信息对所述web网页dom树中的节点进行比较匹配定位到所需数据的位置,提取所需数据;当提取到的数据为新URL地址时,将所述URL地址发送到URL队列管理装置;当提取到的数据为内容数据时,将所述内容数据发送到所述数据存储装置;
所述URL队列管理装置,用于检查所述新URL地址是否已爬取或是否需要重新爬取;
所述数据存储装置,用于存储所述内容数据。
7.根据权利要求6所述的系统,其特征在于,所述URL队列包括待访问URL队列和已访问URL队列;
所述URL队列管理装置,用于当所述新URL地址不存在于所述已访问队列中时,将所述新URL地址加入到待访问URL队列和已访问URL队列;否则忽略该新URL地址。
8.根据权利要求6所述的系统,其特征在于,所述数据存储装置,用于以json格式存储所述内容数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团安徽有限公司;南京中兴软创科技股份有限公司,未经中国移动通信集团安徽有限公司;南京中兴软创科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310198598.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于将多个对象布置到输出单位上的方法和设备
- 下一篇:一种内存分配方法及装置





