[发明专利]一种海量数据处理方法、系统、终端及存储介质在审
申请号: | 202010145897.2 | 申请日: | 2020-03-05 |
公开(公告)号: | CN111475494A | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 王雪静 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 张营磊 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 数据处理 方法 系统 终端 存储 介质 | ||
本发明提供一种海量数据处理方法、系统、终端及存储介质,包括:设置数据质量检测的基础规则;根据业务需要修改所述基础规则并根据修改后的基础规则生成特定业务数据校验模板;利用基础规则和所述特定业务校验模板对海量数据进行校验;将校验出的问题数据以及问题数据的校验结果保持至问题数据库。本发明能够定量、分批且快速准确的定位出问题数据,并将问题数据已数据报告的方式列出,对数据治理有指导性意义。避免因系统资源不足导致数据处理效率低的问题。
技术领域
本发明涉及大数据技术领域,具体涉及一种海量数据处理方法、系统、终端及存储介质。
背景技术
随着信息化的飞速发展,大数据已经是信息化的必然产物,对大数据进行深度挖掘和分析更是重中之重。而数据质量则成为了大数据分析重要指标,只有在数据质量较好的数据中进行深度挖掘和深度分析才能获取最有价值的数据信息。
海量数据处理软硬件要求较高,即系统资源占用率高。对海量的数据进行处理,除了好的方法及合理使用工具,最重要的就是合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,但也必须加大CPU和内存做,就象面对着千军万马,光有勇气没有一兵一卒是很难取胜的,因此在海量数据处理时需考虑现有系统资源情况。
在大数据时代,对海量数据的深度挖掘和深度分析成为了对趋势预测和靶向性分析基础要素,对海量数据治理成为提高数据质量的首要任务,对庞大的数据能够快速、准确的定位出问题处理,并做到问题数据有源可寻、有据可依、有错必改。
发明内容
针对现有技术的上述不足,本发明提供一种海量数据处理方法、系统、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种海量数据处理方法,包括:
设置数据质量检测的基础规则;
根据业务需要修改所述基础规则并根据修改后的基础规则生成特定业务数据校验模板;
利用基础规则和所述特定业务校验模板对海量数据进行校验;
将校验出的问题数据以及问题数据的校验结果保持至问题数据库。
进一步的,所述设置数据质量检测的基础规则,包括:
根据业务场景对数据的普遍需求设置数据检测的基础规则,所述基础规则限定数据格式和数据字典属性。
进一步的,所述根据业务需要修改所述基础规则并根据修改后的基础规则生成特定业务数据校验模板,包括:
根据数据的业务含义将数据来源与业务项进行绑定;
根据数据的业务项需求调整对绑定数据的基础规则的属性限定值;
根据数据的业务项需求在基础规则的基础上增加业务项必须的校验规则;
将基础规则和必须校验规则写入特定业务校验模板。
进一步的,所述利用基础规则和所述特定业务校验模板对海量数据进行校验,包括:
利用基础规则对所有海量数据进行校验;
根据数据来源调用相应的业务校验模板对数据进行校验;
采用大数据批处理框架进行数据校验。
进一步的,所述方法还包括:
监控系统资源占用率;
当监控到资源占用率达到设定指标时,触发所述利用基础规则和特定业务校验模板对海量数据的校验。
第二方面,本发明提供一种海量数据处理系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010145897.2/2.html,转载请声明来源钻瓜专利网。