[发明专利]一种基于内容分析的web数据采集方法在审

申请号：	201510730014.3	申请日：	2015-11-02
公开（公告）号：	CN105426407A	公开（公告）日：	2016-03-23
发明（设计）人：	武斌;张志华	申请（专利权）人：	浪潮软件集团有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	济南信达专利事务所有限公司 37100	代理人：	姜明
地址：	250100 山东省***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于内容分析的web数据采集方法，属于数据管理领域；本发明获取待爬取URL集，将URL集合分片，分别送到集群各个节点上执行Map操作；从临时文件获取键值对，执行Reduce操作，从原始网页库中取出原始网页，进行解析，提取出新的URL然后存储进链出URL库；将从HDFS获取原始网页作为参数输入，将输入原始网页分片，将各个分片分配到各节点执行Map操作；获取解析出的URL与已采集URL库做比较，过滤掉已经爬取过的网页，将符合条件的集合输出到HDFS；最后判断是否符合结束条件，循环执行；本发明更好地利用分布式特点进行网络数据采集。
搜索关键词：	一种基于内容分析 web 数据采集方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于内容分析的web数据采集方法，其特征在于具体步骤为①从HDFS待采集的网页URL库中获取待爬取URL集，对输入进来的URL级执行Split过程，将URL集合分片，分别送到集群各个节点上执行Map操作，将采集来的原始网页进行网页存储；②从临时文件获取键值对，执行Reduce操作，从原始网页库中取出原始网页，进行解析，提取出新的URL然后存储进链出URL库；③将从HDFS获取原始网页作为参数输入，执行Split过程将输入原始网页分片，将各个分片分配到各节点执行Map操作；已采集的URL从链出URL库获得新URL；④获取解析出的URL，通过与已采集URL库做比较，过滤掉已经爬取过的网页，将符合条件的集合输出到HDFS；⑤判断是否符合结束条件，如果符合，结束程序，如果不符合，将过滤后符合条件的URL存入待采集URL库，网页抓取模块继续抓取，循环执行。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司，未经浪潮软件集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510730014.3/，转载请声明来源钻瓜专利网。

上一篇：拉科酰胺中间体化合物及其制备方法和应用
下一篇：处理方法与设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于内容分析的web数据采集方法在审

专利文献下载