[发明专利]数据采集系统和方法有效

专利信息
申请号: 201010257383.2 申请日: 2010-08-19
公开(公告)号: CN102375837A 公开(公告)日: 2012-03-14
发明(设计)人: 胡珉;罗治国;孙少陵;黄晓庆;张新访;廖卫国;李成华;任猛;余晓阳 申请(专利权)人: 中国移动通信集团公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京英赛嘉华知识产权代理有限责任公司 11204 代理人: 余朦;王艳春
地址: 100032 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 采集 系统 方法
【说明书】:

技术领域

本申请涉及数据采集系统和方法。

背景技术

随着计算机硬件和互联网的飞速发展,个人和企业产生的数据一直持续增长。例如FTP文档服务器、数据库服务器等的数据存储服务器所存储的数据量越来越庞大。数据采集是指从数据存储服务器获取数据,例如,从FTP文档服务器中获取文档或者从数据库服务器中获取数据,并将所获取的数据存放至预定位置以便建立索引提供给用户进行搜索。

针对FTP文档服务器,可将FTP文档服务器中存储的每个文档的FTP完整地址看成一个网页地址,通过网页解析索引的系统进行数据采集。而对于数据库服务器,可预先将需要采集的表格详细信息和查询语句写入一配置文件中,而后根据制定好的配置文件进行定点采集。

通过网页的数据采集需要通过分析已采集的网页来收集下一步待采集的网址。但是,FTP文档服务器中的所有文档的地址是可以事先通过FTP列表命令获取得到的,而通过网页的数据采集,没有利用到这一特点。因此当需要采集海量文档时,采集的效率非常低;即便可利用分布式的网页采集系统,但也不能充分发挥分布式采集的能力。而在针对每个表格编写不同配置文件的数据库服务器的数据采集方案中,需要事先对所有待采集的数据库表格分别写好配置文件,人工工作量较大,自动化程度不高,从而导致采集效率较低;此外使用配置文件的方法,只能做到单机的数据采集,难以利用分布式并行采集。

发明内容

本申请的目的是提供一种至少能够部分改善上述现有技术中的缺陷的数据采集系统和方法。

根据本申请的第一方面,提供了一种数据采集系统,包括:多个调度服务器和多个采集服务器,其中,调度服务器包括:生成单元,生成采集任务;以及发送单元,将所述采集任务发送给所述多个采集服务器中当前处于待接收状态的一个采集服务器,采集服务器包括:拆分单元,将接收到的采集任务拆分为多个子任务;以及子任务发送单元,将所述多个子任务发送给所述多个调度服务器中当前处于待接收状态的一个或多个调度服务器,其中,所述调度服务器的发送单元进一步将所述调度服务器接收到的子任务发送给所述多个采集服务器中当前处于待接收状态的采集服务器,采集服务器进一步包括:执行单元,根据所接收的子任务,执行数据采集。

根据本申请的另一方面,提供了一种数据采集方法,包括:多个调度服务器的其中之一生成采集任务,将所述采集任务发送给多个采集服务器;所述多个采集服务器中当前处于待接收状态的一个采集服务器接收所述采集任务,将所述采集任务拆分为多个子任务,并将所述多个子任务发送给所述多个调度服务器;所述多个调度服务器中当前处于待接收状态的一个或多个调度服务器接收所述多个子任务,并将所述多个子任务发送给所述多个采集服务器;以及多个采集服务器中当前处于待接收状态的一个或多个采集服务器接收所述多个子任务,并根据所接收的每个子任务,执行数据采集。

通过本申请的数据采集系统和方法,可提高数据采集的效率,并能够利用分布式并行处理能力,实现针对海量数据的数据采集。

附图说明

图1是根据本申请一个实施方案的数据采集系统的框图;

图2是示出根据本申请实施方案的数据采集系统中采集服务器的拆分单元结构的框图;

图3是根据本申请一个实施方案的数据采集方法的流程图;以及

图4是根据本申请另一实施方案的数据采集方法的流程图。

具体实施方式

下面参照附图,对本申请的实施方案进行详细说明。

如图1所示,根据本申请一个实施方案的数据采集系统11可包括多个调度服务器110和多个采集服务器120,以对数据存储服务器130中存储的数据执行数据采集任务。虽然在图1的系统中显示了两个调度服务器110和四个采集服务器120,但是可以理解,调度服务器和采集服务器的数量可不限于两个和四个,也可以是其他数目。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010257383.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top