[发明专利]一种基于内容分析的web数据采集方法在审
| 申请号: | 201510730014.3 | 申请日: | 2015-11-02 |
| 公开(公告)号: | CN105426407A | 公开(公告)日: | 2016-03-23 |
| 发明(设计)人: | 武斌;张志华 | 申请(专利权)人: | 浪潮软件集团有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
| 地址: | 250100 山东省*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 内容 分析 web 数据 采集 方法 | ||
技术领域
本发明公开一种基于内容分析的web数据采集方法,属于数据管理领域。
背景技术
互联网的规模不断扩大,在互联网这个大平台上的信息量正指数级的增长。所以在互联网上形成了一个包含海量数据的信息库。一直以来,人们都在致力于如何在互联网浩瀚的信息中迅速的找到网络用户所需要的信息。使得网络数据采集面临着巨大的挑战。传统单机的网络数据采集方式已经无法满足网络用户的需求,分布式网络采集系统应运而生。但是对于分布式系统而言,存在集群内节点之间底层通信和任务同步等技术问题,不能更好地利用分布式特点进行网络数据采集,本发明提供一种基于内容分析的web数据采集方法,伴随着内容分析理论的日趋完善,基于内容分析利用分布式系统,为内容分析提供基础设施,用户不必了解分布式系统应用水平的细节,就能充分利用集群的功能,高速运算和存储,进行网络数据采集和应用。同时,利用互网络数据采集可以爬取网络上所有资源的程序。从网站首页开始,爬取网页的内容,之后解析网页上的超链接,通过这些链接地址寻找下一个网页,进行循环,直到把网站所有的网页都抓取完成。
MapReduce是一种编程模型,用于大规模数据集的并行运算。包括Map和Reduce,及它们的主要思想,方便编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。软件实现是指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的键组。
发明内容
本发明针对现有技术中分布式系统存在集群内节点之间底层通信和任务同步等技术问题,不能更好地利用分布式特点进行网络数据采集的问题,提供一种基于内容分析的web数据采集方法,基于内容分析利用分布式系统,为内容分析提供基础设施,同时,利用互网络数据采集可以爬取网络上所有资源的程序,更好地利用分布式特点进行网络数据采集。
本发明提出的具体方案是:
一种基于内容分析的web数据采集方法,具体步骤为
①从HDFS待采集的网页URL库中获取待爬取URL集,对输入进来的URL级执行Split过程,将URL集合分片,分别送到集群各个节点上执行Map操作,将采集来的原始网页进行网页存储;
②从临时文件获取键值对,执行Reduce操作,从原始网页库中取出原始网页,进行解析,提取出新的URL然后存储进链出URL库;
③将从HDFS获取原始网页作为参数输入,执行Split过程将输入原始网页分片,将各个分片分配到各节点执行Map操作;已采集的URL从链出URL库获得新URL;
④获取解析出的URL,通过与已采集URL库做比较,过滤掉已经爬取过的网页,将符合条件的集合输出到HDFS;
⑤判断是否符合结束条件,如果符合,结束程序,如果不符合,将过滤后符合条件的URL存入待采集URL库,网页抓取模块继续抓取,循环执行。
所述步骤①中将URL集合分片,分别送到集群各个节点上,利用MapReduce进行Map操作。
所述步骤②中利用MapReduce执行Reduce操作。
所述步骤③中将原始网页的各个分片分配到各节点利用MapReduce执行Map操作。
所述步骤④中利用MapReduce执行Reduce操作,获取解析出的URL。
本发明的有益之处是:
本发明提供一种基于内容分析的web数据采集方法,首先获取待爬取URL集,将URL集合分片,分别送到集群各个节点上执行Map操作,将采集来的原始网页进行网页存储;从临时文件获取键值对,执行Reduce操作,从原始网页库中取出原始网页,进行解析,提取出新的URL然后存储进链出URL库;将从HDFS获取原始网页作为参数输入,将输入原始网页分片,将各个分片分配到各节点执行Map操作;已采集的URL从链出URL库获得新URL;获取解析出的URL,通过与已采集URL库做比较,过滤掉已经爬取过的网页,将符合条件的集合输出到HDFS;最后判断是否符合结束条件,循环执行;本发明基于内容分析利用分布式系统,为内容分析提供基础设施,同时,利用互网络数据采集可以爬取网络上所有资源的程序,更好地利用分布式特点进行网络数据采集。
附图说明
图1本发明方法流程示意图。
具体实施方式
一种基于内容分析的web数据采集方法,具体步骤为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510730014.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:拉科酰胺中间体化合物及其制备方法和应用
- 下一篇:处理方法与设备
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





