[发明专利]一种基于内容分析的web数据采集方法在审
| 申请号: | 201510730014.3 | 申请日: | 2015-11-02 |
| 公开(公告)号: | CN105426407A | 公开(公告)日: | 2016-03-23 |
| 发明(设计)人: | 武斌;张志华 | 申请(专利权)人: | 浪潮软件集团有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
| 地址: | 250100 山东省*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 内容 分析 web 数据 采集 方法 | ||
1.一种基于内容分析的web数据采集方法,其特征在于具体步骤为
①从HDFS待采集的网页URL库中获取待爬取URL集,对输入进来的URL级执行Split过程,将URL集合分片,分别送到集群各个节点上执行Map操作,将采集来的原始网页进行网页存储;
②从临时文件获取键值对,执行Reduce操作,从原始网页库中取出原始网页,进行解析,提取出新的URL然后存储进链出URL库;
③将从HDFS获取原始网页作为参数输入,执行Split过程将输入原始网页分片,将各个分片分配到各节点执行Map操作;已采集的URL从链出URL库获得新URL;
④获取解析出的URL,通过与已采集URL库做比较,过滤掉已经爬取过的网页,将符合条件的集合输出到HDFS;
⑤判断是否符合结束条件,如果符合,结束程序,如果不符合,将过滤后符合条件的URL存入待采集URL库,网页抓取模块继续抓取,循环执行。
2.根据权利要求1所述的一种基于内容分析的web数据采集方法,其特征在于所述步骤①中将URL集合分片,分别送到集群各个节点上,利用MapReduce进行Map操作。
3.根据权利要求2所述的一种基于内容分析的web数据采集方法,其特征在于所述步骤②中利用MapReduce执行Reduce操作。
4.根据权利要求1或3所述的一种基于内容分析的web数据采集方法,其特征在于所述步骤③中将原始网页的各个分片分配到各节点利用MapReduce执行Map操作。
5.根据权利要求4所述的一种基于内容分析的web数据采集方法,其特征在于所述步骤④中利用MapReduce执行Reduce操作,获取解析出的URL。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510730014.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:拉科酰胺中间体化合物及其制备方法和应用
- 下一篇:处理方法与设备
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





