[发明专利]一种大数据处理装置及方法在审
申请号: | 201810648667.0 | 申请日: | 2018-06-22 |
公开(公告)号: | CN108920410A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 王旭生;梁娜;王健;邱志祺;安逸 | 申请(专利权)人: | 华北理工大学 |
主分类号: | G06F15/173 | 分类号: | G06F15/173;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 063210 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据形态 处理器 次级处理器 关键指标 主处理器 数据处理模块 数据处理装置 目标数据 数据处理 处理器连接 工作效率 公司系统 属性信息 数据交流 制定 | ||
本发明公开了一种大数据处理装置及方法,包括主处理器、初步处理器和次级处理器,所述主处理器内设有主数据处理模块,所述主处理器与多个初步处理器连接,所述初步处理器内设有初步数据处理模块,一个初步处理器与多个次级处理器连接。通过初步处理器获取待处理的目标数据,通过次级处理器获取预先制定的数据形态关键指标,数据形态关键指标包括数据的自身属性信息,根据预先制定的数据形态关键指标确定待处理的目标数据的数据形态。及时完成数据交流减轻了公司系统同时处理大量数据的负担,数据处理的精确性高,数据处理及时提高了工作效率。
技术领域
本发明涉及数据处理领域,具体是一种大数据处理装置及方法。
背景技术
随着云时代的来临,大数据也吸引了越来越多的关注。分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
发明内容
本发明的目的在于提供一种大数据处理装置及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种大数据处理装置,包括主处理器、初步处理器和次级处理器,所述主处理器内设有主数据处理模块,所述主处理器与多个初步处理器连接,所述初步处理器内设有初步数据处理模块,一个初步处理器与多个次级处理器连接,所述次级处理器内设有次级数据处理模块,所述主数据处理器、初步处理器和次级处理器内设均设有数据检测模块,数据检测模块用于检测输入数据异常。
一种大数据处理方法,包括以下步骤:
步骤S1,通过初步处理器获取待处理的目标数据。
步骤S2,通过次级处理器获取预先制定的数据形态关键指标,数据形态关键指标包括数据的自身属性信息。
在一个实施例中,预先制定的数据形态关键指标可包括但不局限于以下指标中的一项或多项:
预定数据表的数据量、预定数据表的一个或多个分区的数据量、指定复合主键的数据量、字段去重后的个数、字段的值为NULL的个数、字段值的最大值、字段值的最小值、字段值中最大长度、字段值中最小长度、指定字段的计算结果、字段中值为0的个数、字段中值为0的个数与整张表的数据量的百分比以及字段中值为NULL的个数与整张表的数据量的百分比。
对数据进行处理前,需要定义要计算的数据形态关键指标,关键指标主要有:从整体表来看整表的数据量,或者一个分区的数据量。
指定复合主键的数据量。
每个字段计算的指标:
字段去重后总量:这个字段去重后的个数;
NULL总量:这个字段的值为null的个数;
最大值:求这个字段值最大值,如果是非数值类的字段(string类型等,就按照max函数默认的逻辑计算。
最小值:求这个字段值最大值,如果是非数值类的字段(string类型等,就按照min函数默认的逻辑计算。
最大长度:这个字段值中的最大长度;
最大长度举例:这个字段值中最大长度中的其中一个字段值;
最小长度:这个字段值中的最小长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北理工大学,未经华北理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810648667.0/2.html,转载请声明来源钻瓜专利网。