[发明专利]一种基于人工智能技术的数据治理平台在审
申请号: | 202011409349.2 | 申请日: | 2020-12-04 |
公开(公告)号: | CN112506906A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 金震;王兆君;李明;曹朝辉;杨海建 | 申请(专利权)人: | 北京三维天地科技股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/23;G06Q10/10 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 田春龙 |
地址: | 100000 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 技术 数据 治理 平台 | ||
1.一种基于人工智能技术的数据治理平台,其特征在于,所述数据治理平台包括:交互模块、数据应用模块、数据质量管理模块、元数据管理模块和数据访问模块;
所述交互模块,用于响应用户请求,实现与用户的交互;
所述数据应用模块,用于响应所述交互模块中用户请求的信息,维护数据的变更历史和数据之间的关系;
所述数据质量管理模块,用于对所述元数据管理模块中存储的元数据的数据源进行数据质量检测和数据清洗;
所述元数据管理模块,用于分析通过所述数据访问模块访问的数据源,从所述数据源中发现元数据,并对所述数据源的元数据进行存储;
所述数据访问模块,用于对治理的数据源进行访问。
2.根据权利要求1所述的数据治理平台,其特征在于,所述交互模块,包括:用户请求单元和数据交互单元;
所述用户请求单元,用于接收用户请求信息;
所述数据交互单元,用于将根据所述用户请求信息得到的反馈信息呈现给用户。
3.根据权利要求1所述的数据治理平台,其特征在于,所述数据应用模块,包括:数据源维护单元、数据历史查询单元和数据溯源单元;
所述数据源维护单元,用于向用户提供服务,允许用户对创建、查询、修改和删除数据源;
所述数据历史查询单元,用于查询数据源的优化过程和系统的迭代信息;
所述数据溯源单元,用于管理数据治理平台中的数据源的溯源信息。
4.根据权利要求1所述的数据治理平台,其特征在于,所述数据质量管理模块,包括:数据质量检测单元和数据清洗单元;
所述数据质量检测单元,用于对数据进行检测,得到需要处理的缺失数据、需要去除的重复数据、需要去除的噪声数据和需要处理的异常真实数据,并获得数据健康度分析报告;
所述数据清洗单元,用于根据所述数据健康度分析报告进行清洗治理。
5.根据权利要求4所述的数据治理平台,其特征在于,所述质量检测单元获得数据健康度分析报告的过程中,包括:
生成数据质量检测规则;
根据定义的数据质量检测规则制定数据质量检测方案;
对数据质量检测的时间进行定时设置;
依据定时设置的数据质量检测的时间,按照制定的数据质量检测方案进行数据质量检测,获得数据质量检测结果;
根据所述数据质量检测结果生成数据健康度分析报告。
6.根据权利要求5所述的数据治理平台,其特征在于,所述数据健康度分析报告包括数据质量问题,数据质量问题的明细以及数据质量问题的改进建议。
7.根据权利要求5所述的数据治理平台,其特征在于,所述生成数据质量检测规则时,通过Drools访问企业策略,调整以及管理的开源业务规则,通过CHARLESFORGY'S的RETE算法基于规则的系统的时间冗余性和结构相似性形成一个RETE网络进行模式匹配。
8.根据权利要求4所述的数据治理平台,其特征在于,所述数据清洗单元通过数据转换工具,根据所述数据质量检测报告对缺失数据、重复数据、噪声数据和异常真实数据进行可视化操作处理。
9.根据权利要求1所述的数据治理平台,其特征在于,所述元数据管理模块,包括:元数据发现单元、元数据更新单元、元数据查询单元、追踪日志收集单元、数据模式监视单元和元数据存储单元;
所述元数据发现单元,用于获得数据源的元数据;
所述数据模式监视单元,用于监视数据模式,捕获数据模式的变更;
所述元数据更新单元,用于根据数据模式的变更对所述元数据进行更新;
所述元数据查询单元,用于根据所述数据质量管理模块的需要提供元数据查询,获得数据源的信息;
所述追踪日志收集单元,用于收集数据源的追踪日志并提供对追踪日志的查询功能;
所述元数据存储单元,用于存储数据源的结构和数据源之间的关系。
10.根据权利要求4所述的数据治理平台,其特征在于,所述数据清洗单元进行清洗治理过程中包括:
对待清洗的数据进行预处理;
对预处理后的需要处理的缺失数据、需要去除的重复数据、需要去除的噪声数据和需要处理的异常真实数据进行清洗治理;
其中,在对需要处理的缺失数据进行清洗治理时,根据如下步骤进行:
A1、计算缺失数据的占比;
上述公式中,Hi表示第i个缺失数据的占比,w(i)表示第i个缺失数据的属性数据,count(w(i))表示缺失数据所述的属性数据的数量,count(Ω)表示所有数据的数量;
A2、对计算的缺失数据的占比进行判断;
上述公式中,Di表示判断值,h表示预设阈值,在这里取0.1;
当判断值小于0.27时,对于缺失数据即可直接删除,当判断值大于等于0.27时,进行步骤A3;
A3、对缺失数据进行替换;
上述公式中,ki表示缺失函数的数据,MODE表示取众数函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三维天地科技股份有限公司,未经北京三维天地科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011409349.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于物联网的智能空气净化器
- 下一篇:一种定日镜面形快速解算系统及方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置