[发明专利]一种大规模流式集合数据的分布式处理方法有效
申请号: | 201710087603.3 | 申请日: | 2017-02-17 |
公开(公告)号: | CN106990913B | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 王建民;龙明盛;王珏;黄向东 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗文群 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 大规模 集合 数据 分布式 处理 方法 | ||
本发明涉及一种大规模流式集合数据的分布式处理方法,属于计算机数据处理技术领域。首先基于分布式消息系统记录流式集合数据的完备状态,如果流式集合数据完备则消息系统生成对应的消息,分布式计算系统从分布式消息系统中提取流式集合数据的状态消息,将获取的流式集合数据存储到分布式存储系统,根据具体的处理算法和业务逻辑进行分布式处理和计算,并将处理结果存储到分布式存储系统中,完成对流式集合数据的处理。本发明方法可以有效的控制流式集合数据的处理流程,并利用集合数据的批量式计算提高系统的资源利用率。本方法可以快速、有效地处理目前日益增长的流式集合数据,十分适用于工业物联网、气象信息网等典型的大数据应用场景。
技术领域
本发明涉及一种大规模流式集合数据的分布式处理方法,属于计算机数据处理技术领域。
背景技术
随着大数据和物联网技术的发展以及在多个关键领域的普及,在工业互联网、气象信息网等重要应用领域中实时产生着大规模流式集合数据。流式集合数据的特点是:不同集合的数据成员都流式地产生,但仅当每个集合中的数据成员全部完备才可以进行处理。例如,在智慧气象领域中极为重要的集合预报数据,需要按照大气动力学方程的多个初始条件计算气象模式解,得到的多个数值解将构成一个完整的集合,而不同集合数据在全球各地的气象部门中是以流式方式产生的;要进行集合预报,就需要每个集合中的所有数据成员都到齐才可以进行。对于大规模流式集合数据这一重要的数据类型,现有的单机系统和简单的分布式系统都无法高效地处理,成为制约相关领域技术升级和业务增强的瓶颈之一。在复杂的数据产生环境下,如何快速有效的处理大规模流式集合数据,已成为分布式系统和大数据处理领域的一个重要问题。
面对如今庞大的计算任务,采用分布式计算系统的方案在工业界得到了广泛认可,如国内的百度、阿里巴巴、腾讯等都部署了大规模的分布式计算系统,用于海量数据的高效处理。随着分布式计算系统在各行各业优越的表现,一方面分布式计算系统的解决方案越来越多,同时越来越成熟,另一方面绝大部分的分布式计算系统面向大众提供开源的代码,降低了分布式计算系统使用的门槛,方便对分布式计算系统进行更好的学习使用和改进。虽然使用分布式计算系统进行大规模数据的高效处理已经成为主流的大数据解决方案,如何对大规模流式集合数据这一新的数据类型进行高效处理和持久化仍然是一个开放性问题,已经成为工业界聚焦的重要问题,也是大数据的前沿课题之一。
发明内容
本发明的目的是提出一种大规模流式集合数据的分布式处理方法,针对目前大规模流式集合数据处理的问题,采用分布式消息系统记录集合数据完备状态,采用分布式存储系统对流式集合数据持久化,采用分布式计算系统进行批量高效处理,上述三个系统共同实现大规模流式集合数据的高效处理和存储。
本发明提出的大规模流式集合数据的分布式处理方法,包括以下步骤:
(1)监控系统从数据源接收集合数据,将接收的集合数据记为记当前分布式存储系统的写入队列长度为wcurrent,分布式存储系统的最大写入队列长度为wmax,对当前分布式存储系统的写入队列长度进行判断,若0<wcurrent<wmax,则进入步骤(2);若wcurrent≥wmax,则监控系统将接收的集合数据写入监控系统的磁盘,并记写入磁盘的集合数据为sstore,继续接收集合数据,重复本步骤,若wcurrent=0,则访问磁盘上的sstore,并对磁盘上的sstore进行判断,若sstore存在,则进入步骤(2),若sstore不存在,则重复本步骤;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710087603.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置