[发明专利]一种大数据抽取和交换系统在审

申请号：	201510711186.6	申请日：	2015-10-29
公开（公告）号：	CN105243155A	公开（公告）日：	2016-01-13
发明（设计）人：	姬源;黄育松;谢冬;王向东	申请（专利权）人：	贵州电网有限责任公司电力调度控制中心
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	550002 贵州省贵阳市解***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据抽取交换系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种大数据抽取与交换的方法与系统，通过一个部署于Spark平台的控制与交换中心结合若干交换代理，支持关系数据库、非结构化文档、传感器数据库与Hadoop平台Hive、HBase、HDFS系统之间数据双向流转，通过采用并行任务调度和采用内存来存储所有中间数据，实现高效的数据交换。

背景技术

随着企业数据量的不断增加，计算机需要处理的数据已经从MB级别达到TB级别，甚至PB级别，单个服务器已无法对企业所有数据进行存储与分析，需要将数据抽取汇总到大数据平台进行分析处理。企业遗留系统通常包含各种类型的数据，包含存储于关系数据库系统的业务数据，存储为文件形式的各种文档资料与日志文件，也包含来自大量传感器的实时监测数据等。如何对这些数据都高效、实时的进行采集是大数据项目成功的第一步。

Hadoop平台目前是最常用的大数据平台软件，Hadoop实现了MapReduce程序的运行环境，支持任务的分布式执行。HDFS是一个分布式文件系统，该文件系统数据会存储与多个副本，因此具有很高的容错性。但是HDFS不允许对文件内容进行修改，只能对文件内容进行追加。Hive是一个数据仓库系统，数据以非结构化文本格式存储与HDFS中，上层提供类似SQL的查询接口，并提供翻译引擎将查询语句自动翻译为MapReduce程序来进行执行。因为数据存储于HDFS，Hive中数据也只能读取不能修改。HBase为一种列式存储数据库，数据采用主键来进行存取，不支持SQL查询，但具有很高的吞吐量，HBase支持数据修改。

目前已经存在一些单一类型的大数据采集系统，比如Hadoop生态系统的Sqoop系统，支持从关系数据库进行并行的数据抽取，目前已经支持Oracle、SQLServer、MySql等各种主流数据库，并且支持通过MapReduce来并行的执行抽取任务。比如分布式消息采集系统kafka，是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。还比如Nutch这种分布式的爬虫系统，可以从互联网并行抓取数据并存储于Hadoop文件系统中。

关系数据库之间相互转化的工具已经广泛应用与企业，包含Oracle、SQLServer也都提供了数据导入导出其他数据库的工具。Informatica和IBM也有相关产品，支持关系数据库、XML等结构化半结构化数据的转换。但是目前还没有专门的系统来支持大数据平台中系统与传统关系数据库等进行方便的交换。因为大数据系统数量众多，还在不断增加，仅NoSQL数据库就有几十种，如何提供良好的系统架构来将这些数据库接入到交换系统，是具有挑战的问题。

目前这些大数据采集系统互相独立存在，而且Hadoop的加载机制单一，比如从关系数据库抽取的数据只能加载到Hive中，而不能加载到HBase中来实现一些快速的查询服务。另外在加载到Hadoop中以后，也不存在一种方法支持数据在Hadoop不同子系统进行流动。比如Hive中的数据需要进行大量数据清理，而Hive本身又不支持数据的修改，这时就需要将数据转移到HBase中来进行处理。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种大数据抽取与交换的系统，支持关系数据库、非结构化文档、传感器数据库与Hadoop平台Hive、HBase、HDFS系统之间数据双向流转，通过采用并行任务调度和采用内存来存储所有中间数据，实现高效的数据交换。

为实现上述目的，本发明提供了一种大数据抽取和交换系统，包括部署于Spark平台的控制交换中心，通过Yarn资源管理框架将Spark平台和Hadoop平台部署于同一个集群；控制交换中心内存对象存储与Spark中，所有中间数据与不同类型数据模型转换任务也由Spark执行；

包括都分散在不同的服务器中的关系数据库系统、非结构化文档、传感器数据；

包括一个独立的集群部署Hadoop大数据平台，所述Hadoop大数据平台包含HDFS、HBase、Hive子系统，用于加载抽取的数据，并提供分析功能；

包括部署于不同数据源系统之上或者控制交换中心的交换代理；用于通过远程接口来和数据源进行交互；

包括交换代理与交互控制中心之间的控制消息通道与数据通道；

所述控制交换中心包含任务调度模块、内存对象管理模块、数据转换模块；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司电力调度控制中心，未经贵州电网有限责任公司电力调度控制中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510711186.6/2.html，转载请声明来源钻瓜专利网。