[发明专利]一种基于海量数据处理的数据治理的方法及系统有效
| 申请号: | 201910444787.3 | 申请日: | 2019-05-27 |
| 公开(公告)号: | CN110162516B | 公开(公告)日: | 2022-11-01 |
| 发明(设计)人: | 宋晗;王博;张鑫慧;蒋宽;王为选 | 申请(专利权)人: | 浪潮软件股份有限公司 |
| 主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/2455;G06F16/28 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
| 地址: | 271000 山东省*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 海量 数据处理 数据 治理 方法 系统 | ||
1.一种基于海量数据处理的数据治理的方法,其特征在于,该方法基于大数据批处理框架,采用分布式计算思想,将数据与业务含义进行绑定,在海量数据中进行校验和运算,将问题数据输出并按照json格式结构进行保存,确保对问题数据有源可寻、有据可依、有错必改;具体步骤如下:
S1、建立业务数据库、标准数据库、基础规则库和错误数据库;
S2、检测基础规则库:根据业务场景和行业线提取基础规则库,对数据质量进行检测;
S3、建立业务规则库:根据数据的业务含义将数据与业务进行绑定,选取字段,将字段与数据完整性基础规则绑定成为具有业务含义的业务规则,将抽象的基础规则转化为具有指定业务含义的业务规则,业务规则汇集成为业务规则库;
S4、建立数据检测模板:将具有业务含义的业务规则按照数据规范或者使用者拟定的数据规范聚合成数据检测模板,方便后续数据检测;
S5、制定数据质量检测任务:按照数据规范或者使用者要求的数据规范,选取数据范围、数据量、检测频次和数据检测模板;
S6、启动数据质量检测任务:被选定的数据将会在数据检测模板包含的业务规则下进行分布式内存运算。
2.根据权利要求1所述的基于海量数据处理的数据治理的方法,其特征在于,所述步骤S1中的业务数据库是指支持系统运行的原始数据库,原始数据库用于保存业务原始数据,通过对业务数据库管理,能够方便在数据质量检测时,选取需要检测的数据表和相关数据。
3.根据权利要求1或2所述的基于海量数据处理的数据治理的方法,其特征在于,所述步骤S1中的标准数据库指按照数据规范或者使用者拟定的数据规范进行建立的数据库,标准数据库保存的数据是通过数据质量检测的数据以及经检测存在问题并修改后的数据。
4.根据权利要求3所述的基于海量数据处理的数据治理的方法,其特征在于,所述步骤S1中的基础规则库通过对通用的数据校验逻辑提取出基础规则模型,保证基础规则的通用性以及可扩展性。
5.根据权利要求4所述的基于海量数据处理的数据治理的方法,其特征在于,所述步骤S1中的错误数据库将经过数据质量检测的问题数据保存,同时记录问题原因,并为问题数据治理提供的方案和建议。
6.根据权利要求5所述的基于海量数据处理的数据治理的方法,其特征在于,所述步骤S2中的检测基础规则库是基于数据完整性、数据有效性、数据正确性、数据冗余性和数据时效性按类别抽查,同时涉及限定数据格式、数据字典项、数据项是否完整的基础规则。
7.根据权利要求6所述的基于海量数据处理的数据治理的方法,其特征在于,所述步骤S6中被选定的数据将会在数据检测模板包含的业务规则下进行分布式内存运算的具体步骤如下:
S601、按照任务检查执行线程数,将待检测数据进行分片处理;
S602、按照数据检测模板包含的检测规则进行计算;
S603、计算完成后将计算结果合并,将结果数据及问题数据保存至非关系型数据库mangoDB中。
8.一种基于海量数据处理的数据治理的系统,其特征在于,该系统包括数据层、服务层、表现层和管控层;
其中,数据层用于提供基础数据和保存结果数据;
服务层用于为系统运行提供核心功能;
表现层用于为系统用户使用者提供可视化界面展示及操作界面;
管控层用于将数据层、服务层和表现层进行统筹调配和资源管控;管控层包括基础规则库、业务规则库、业务数据库和分布式内存计算单元。
9.根据权利要求8所述的基于海量数据处理的数据治理的系统,其特征在于,所述数据层包括关系型数据库和非关系型数据库mangoDB;
其中,关系型数据库采用oracle,关系型数据库用于存储业务数据库、标准数据库、基础规则库、业务规则库的数据,作为系统运行的基础数据;
非关系型数据库mangoDB用于存储错误数据库的数据,即存储数据质量检测后生成的错误数据。
10.根据权利要求8所述的基于海量数据处理的数据治理的系统,其特征在于,所述服务层包括业务规则库和分布式内存计算单元;
其中,业务规则库用于提供数据检测的规则;
分布式内存计算单元用于提供快速检测和结果结算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件股份有限公司,未经浪潮软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910444787.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





