[发明专利]一种超算环境下的海量数据实时采集与处理方法在审

申请号：	201810514917.1	申请日：	2018-05-25
公开（公告）号：	CN108681489A	公开（公告）日：	2018-10-19
发明（设计）人：	伍卫国;张祥俊	申请（专利权）人：	西安交通大学
主分类号：	G06F9/50	分类号：	G06F9/50
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	徐文权
地址：	710049 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	海量数据实时采集消息源负载均衡技术分布式数据分布式消息数据可靠性订阅系统高可用性缓冲作用集群环境实时处理数据生成完成容器系统消息数据处理可扩充数据源缓冲集群编排存储应用保证管理
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种超算环境下的海量数据实时采集与处理方法，其特征在于，包括以下步骤：

首先通过flume软件的source端将超算集群数据生成的数据源端的消息源进行收集，然后通过flume软件将收集到的消息源汇集到Kafka软件中，消息源以Kafka软件为缓冲进行存储，最后通过Spark软件从Kafka软件中提取需要处理的消息源进行数据处理，从而实现超算环境下的海量数据实时采集与处理。

2.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，使用开分布式的海量日志采集、聚合和传输的系统flume作为数据源端的采集工具，通过Flume对数据进行简单处理，并写到各种数据接受方。

3.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，数据源端包括console、RPC、text、tail、spooldir及syslog，数据源端支持TCP和UDP 2种模式。

4.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，Kafka软件采用分布式消息订阅系统，即有多个消息生产者和多个消费者，kafka软件将接收到的消息源存入到kafka软件的磁盘数据结构的持久化中去供后端能处理端的消息来处理。

5.根据权利要求4所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，Spark软件通过SparkStream来消费Kafka的分布式消息，通过流式处理方式，计算需要做的分析处理业务。

6.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，Spark软件将结果通过数据可视化工具ichart展示出来，可视化工具ichart请求层的web应用程序采用docker容器编排的方式部署，使用dockerswarm作为容器编排工具、结合ansible作为集群的自动化运维工具。

7.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，超算集群的每个节点即超算节点都有多个进程部署在每个分布式节点上，分部署存储的基底是以HDFS基地之上的多个节点构成的集群，超算节点在运行作业时产生的大批量数据会出处在log日志里面，最终flume软件将log日志里面的信息放入Kafka软件缓存上面。

8.根据权利要求7所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，超算节点采用三个节点来存储元数据，使用基于zookeeper来保证多活，每一个作业运行节点作为消息的生产者，每个节点启动时设置一个守护进程，通过命令开启每个节点的kafka服务；每一个流式计算节点作为消息的消费者，每个消息经过每一个flume软件分支汇集到kafka软件集中式缓存起来，其后，spark软件从kafka软件汇聚起来的池子里面拿走消息进行计算，且每个环节都是一个分布式高可用的结构。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安交通大学，未经西安交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810514917.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种物联网平台终端数据上报方法
下一篇：针对RPC信息的向量处理方法、装置以及设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种超算环境下的海量数据实时采集与处理方法在审

专利文献下载