[发明专利]一种多源多模态海洋大数据的离线批处理方法及系统有效
申请号: | 202110476164.1 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113268505B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 李昭;沈金伟;彭小红 | 申请(专利权)人: | 广东海洋大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F9/48;G06F9/52 |
代理公司: | 广州专理知识产权代理事务所(普通合伙) 44493 | 代理人: | 邓易偲 |
地址: | 524088 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多源多模态 海洋 数据 离线 批处理 方法 系统 | ||
本发明公开了一种多源多模态海洋大数据的离线批处理方法及系统,通过采集流数据;对流数据进行数据规整;分割处理流数据;构建调度分配模型,将流数据输入到计算节点中通过调度分配模型对计算节点进行任务调度处理;在数据反复倾斜的情况下也能快速的检测并隔离出错节点,并动态的调度分配新的节点接管出错节点的计算任务,缩减了处理时间,能够根据趋势时间的智能的调度各个计算节点,避免了在节点复活后有可能会反复的进行重复调用该复活/死亡频繁的各个节点从而陷入死锁。
技术领域
本公开属于海洋大数据处理、批数据处理、数据传输领域,具体涉及一种多源多模态海洋大数据的离线批处理方法及系统。
背景技术
海洋大数据采集于各种Argo浮标、浮标、测绘设备等传感器、涵盖了海底地形数据、海洋遥感数据、船测数据、浮标数据、随着海洋监测设备的不断发展,但是由于这些数据采集的来源不同,数据结构不同,源自于不同的采集设备终端采集的多源异构的数据,在当前的大数据处理方法中,当将海量数据存储为数据源时,对于非实时业务数据,通常需要离线批处理。
对于处理这些业务数据的批处理系统通常也叫离线系统或者脱机系统,需要大量的输入数据,运行一个作业来处理它,并产生一些输出数据。工作通常需要一段较长的时间。批处理作业通常是周期性地运行的。当前,大数据的离线批量处理要求数据处理的延迟低,但处理的数据量大,占用更多的计算和存储资源,大数据的离线批处理一般通过spark或者Hadoop框架来实现。对于海量数据,通常采用spark或者Hadoop框架以提供带宽,内存,存储和其他资源,而无需快速响应(例如分钟级延迟和小时级延迟)。但是,由于海洋大数据通常是海量的多模式大数据,因此在需要快速响应处理和及时处理的环境中很难获得良好的结果,在spark或者Hadoop框架中采用MapReduce(映射化简),MapReduce作业是客户端需要执行的工作单元,它包含了输入数据、MapReduce程序和配置信息。Hadoop将作业分为若干个小任务(task)来执行,其中每个小任务又分为Map任务节点和Reduce任务节点,在MapReduce计算集群中,节点硬件(主机、磁盘、内存等)出错和软件出错是常态,现有的MapReduce计算节点(集群节点)的调度方法为:MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性的返回它所完成的工作和最新的状态,如果一个节点保持沉默超过一个预设的时间间隔,主节点记录下这个节点状态为死亡,并把分配给这个节点的数据发到别的节点,虽然MapReduce能检测并隔离出错节点,并调度分配新的节点接管出错节点的计算任务,但是在目前的节点调度方法在数据倾斜严重的场景下,很容易导致处理时间过长,甚至在节点复活后有可能会反复的进行重复调用该复活/死亡频繁的各个节点从而陷入死锁。
发明内容
本发明的目的在于提出一种多源多模态海洋大数据的离线批处理方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
为了实现上述目的,根据本公开的一方面,提供一种多源多模态海洋大数据的离线批处理方法,所述方法包括以下步骤:
S100,采集流数据;
进一步地,采集流数据的方法为:通过用于采集声呐数据、风力、地震、电磁、温度、湿度、噪声、光强度、压力、水质成分、移动物体的大小、速度和方向中任意一种或多种物理量的传感器的Argo浮标、浮标、测绘设备等设备采集的物理量数据的数据序列作为流数据。
S200,对流数据进行数据规整,数据规整包括时间格式化、字段的补齐、数据清理、数据集成、数据归约中任意一种或多种;
S300,通过MapReduce方法分割处理流数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东海洋大学,未经广东海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110476164.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置