[发明专利]一种基于内容分析的web数据采集方法在审
申请号: | 201510730014.3 | 申请日: | 2015-11-02 |
公开(公告)号: | CN105426407A | 公开(公告)日: | 2016-03-23 |
发明(设计)人: | 武斌;张志华 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于内容分析的web数据采集方法,属于数据管理领域;本发明获取待爬取URL集,将URL集合分片,分别送到集群各个节点上执行Map操作;从临时文件获取键值对,执行Reduce操作,从原始网页库中取出原始网页,进行解析,提取出新的URL然后存储进链出URL库;将从HDFS获取原始网页作为参数输入,将输入原始网页分片,将各个分片分配到各节点执行Map操作;获取解析出的URL与已采集URL库做比较,过滤掉已经爬取过的网页,将符合条件的集合输出到HDFS;最后判断是否符合结束条件,循环执行;本发明更好地利用分布式特点进行网络数据采集。 | ||
搜索关键词: | 一种 基于 内容 分析 web 数据 采集 方法 | ||
【主权项】:
一种基于内容分析的web数据采集方法,其特征在于具体步骤为①从HDFS待采集的网页URL库中获取待爬取URL集,对输入进来的URL级执行Split过程,将URL集合分片,分别送到集群各个节点上执行Map操作,将采集来的原始网页进行网页存储;②从临时文件获取键值对,执行Reduce操作,从原始网页库中取出原始网页,进行解析,提取出新的URL然后存储进链出URL库;③将从HDFS获取原始网页作为参数输入,执行Split过程将输入原始网页分片,将各个分片分配到各节点执行Map操作;已采集的URL从链出URL库获得新URL;④获取解析出的URL,通过与已采集URL库做比较,过滤掉已经爬取过的网页,将符合条件的集合输出到HDFS;⑤判断是否符合结束条件,如果符合,结束程序,如果不符合,将过滤后符合条件的URL存入待采集URL库,网页抓取模块继续抓取,循环执行。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510730014.3/,转载请声明来源钻瓜专利网。
- 上一篇:拉科酰胺中间体化合物及其制备方法和应用
- 下一篇:处理方法与设备
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法