[发明专利]实时大数据镜像存储方法及装置有效
申请号: | 201710771908.6 | 申请日: | 2017-08-31 |
公开(公告)号: | CN109426438B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 涂锋;尹启禄;顾学伟;王建宏;刘钰柏;黄志豪;刘忱 | 申请(专利权)人: | 中国移动通信集团广东有限公司;中国移动通信集团公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李官 |
地址: | 510623 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时 数据 存储 方法 装置 | ||
本发明实施例提供了一种实时大数据镜像存储方法及装置,该方法对从实时数据源中获取的原始数据进行数据拆分,并对拆分后的数据按实际业务需求进行重排、筛选、删除等镜像处理,最终存储经过镜像处理之后的数据,从而能够减少数据冗余,提高数据可用性。此外,本发明实施例提供的方法还能够对经过镜像处理后的缓存数据、最终存储在指定路径的存储数据进行检验分析,只有在与原始数据的误差较小时才能够完成本次存储,从而能够增加存储数据的准确性,为后期的数据分析提供有力支持。
技术领域
本发明实施例涉及软件技术领域,具体涉及一种实时大数据镜像存储方法及装置。
背景技术
随着互联网技术的快速发展,大数据已经成为了热门话题,特别是对于运营商、大型互联网公司来讲,数据每天以PB的量级在增长,各相关企业为了响应党和政府的号召,大力发展大数据应用产业,建设了自己的大数据分析处理平台,进行大数据的存储、分析、应用等。在实际的大数据应用中,数据的采集实时性很强,例如:运营商的信令数据采集、互联网公司的日志数据采集,实时性都从分钟级到秒级,这种实时性的数据可为对实时性要求较高的大数据应用,例如:城市热力图带来应用精准、质量的提升,所以,如何将采集的数据更好地进行存储分析,减少从采集到存储到应用的时间,保证数据准确性,是一个亟待解决的问题。
现在的流行的大数据平台,主要是以开源的hadoop平台做为基础,通过hadoop分布式文件系统(HDFS)对大数据进行存储。对于实时大数据的存储,一般是将数据接收后序列化并压缩后作为小文件顺序存储到本地文件系统,在小文件的绝对位置确定后,重新计算小文件的相对位置以追加为一个大文件来保证文件的完整性,且大文件依然可分割,然后异步追加小文件到HDFS中。
然而,在实现发明创造的过程中,发明人发现,现有的方案存在以下问题:
1、数据冗余度大,完成数据存储后,后面的数据分析应用需要对原始数据进行大量的原始处理,去除无用信息才能用于分析使用,会消耗大量有用计算资源;
2、数据缺失可能性大,由于未对数据内容进行存储后的检验,可能会导致部分数据缺失而无法发现,造成后期数据分析不准确。
发明内容
本发明实施例提供一种用于实时大数据镜像存储方法及装置,用于克服现有的大数据存储方法数据冗余度大、数据易缺失的缺陷。
第一方面,本发明实施例提供一种实时大数据镜像存储方法,包括:
接收实时数据源;
对所述实时数据源中的原始数据进行行列拆分,获取所述原始数据的原始数据记录数;并对所述原始数据按预设的镜像算法进行镜像处理,得到镜像后的数据结果,再将所述数据结果存储至缓存变量中,记录所述缓存变量中的缓存数据记录数;
若所述缓存变量的大小达到设定值,则判断所述原始数据记录数与所述缓存数据记录数的误差是否小于预设阈值;
若小于,则将所述缓存变量中的缓存数据按指定的配置路径存储至存储文件中,记录所述存储文件中的存储数据记录数;
判断所述缓存数据记录数与所述存储数据记录数的误差是否小于预设阈值;若小于,则将所述存储文件发送至外部分布式存储系统进行存储。
可选地,所述对原始数据按预设的镜像算法进行镜像处理,得到镜像后的数据结果,包括:
加载数据镜像配置表;
根据所述配置表中配置的列数据镜像映射关系,对所述原始数据中每一行进行列数据镜像处理,得到镜像后的数据结果。
可选地,所述方法还包括:
获取本机系统的资源情况,并计算本机系统当前的资源负载值;
若所述本机系统的资源负载值大于第一阈值,则减少数据镜像处理队列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团广东有限公司;中国移动通信集团公司,未经中国移动通信集团广东有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710771908.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:写时拷贝方法及装置
- 下一篇:对分布式存储系统进行扩容的方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置