[发明专利]一种基于人工智能技术的数据治理平台在审

专利信息
申请号: 202011409349.2 申请日: 2020-12-04
公开(公告)号: CN112506906A 公开(公告)日: 2021-03-16
发明(设计)人: 金震;王兆君;李明;曹朝辉;杨海建 申请(专利权)人: 北京三维天地科技股份有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/23;G06Q10/10
代理公司: 北京冠和权律师事务所 11399 代理人: 田春龙
地址: 100000 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 人工智能 技术 数据 治理 平台
【权利要求书】:

1.一种基于人工智能技术的数据治理平台,其特征在于,所述数据治理平台包括:交互模块、数据应用模块、数据质量管理模块、元数据管理模块和数据访问模块;

所述交互模块,用于响应用户请求,实现与用户的交互;

所述数据应用模块,用于响应所述交互模块中用户请求的信息,维护数据的变更历史和数据之间的关系;

所述数据质量管理模块,用于对所述元数据管理模块中存储的元数据的数据源进行数据质量检测和数据清洗;

所述元数据管理模块,用于分析通过所述数据访问模块访问的数据源,从所述数据源中发现元数据,并对所述数据源的元数据进行存储;

所述数据访问模块,用于对治理的数据源进行访问。

2.根据权利要求1所述的数据治理平台,其特征在于,所述交互模块,包括:用户请求单元和数据交互单元;

所述用户请求单元,用于接收用户请求信息;

所述数据交互单元,用于将根据所述用户请求信息得到的反馈信息呈现给用户。

3.根据权利要求1所述的数据治理平台,其特征在于,所述数据应用模块,包括:数据源维护单元、数据历史查询单元和数据溯源单元;

所述数据源维护单元,用于向用户提供服务,允许用户对创建、查询、修改和删除数据源;

所述数据历史查询单元,用于查询数据源的优化过程和系统的迭代信息;

所述数据溯源单元,用于管理数据治理平台中的数据源的溯源信息。

4.根据权利要求1所述的数据治理平台,其特征在于,所述数据质量管理模块,包括:数据质量检测单元和数据清洗单元;

所述数据质量检测单元,用于对数据进行检测,得到需要处理的缺失数据、需要去除的重复数据、需要去除的噪声数据和需要处理的异常真实数据,并获得数据健康度分析报告;

所述数据清洗单元,用于根据所述数据健康度分析报告进行清洗治理。

5.根据权利要求4所述的数据治理平台,其特征在于,所述质量检测单元获得数据健康度分析报告的过程中,包括:

生成数据质量检测规则;

根据定义的数据质量检测规则制定数据质量检测方案;

对数据质量检测的时间进行定时设置;

依据定时设置的数据质量检测的时间,按照制定的数据质量检测方案进行数据质量检测,获得数据质量检测结果;

根据所述数据质量检测结果生成数据健康度分析报告。

6.根据权利要求5所述的数据治理平台,其特征在于,所述数据健康度分析报告包括数据质量问题,数据质量问题的明细以及数据质量问题的改进建议。

7.根据权利要求5所述的数据治理平台,其特征在于,所述生成数据质量检测规则时,通过Drools访问企业策略,调整以及管理的开源业务规则,通过CHARLESFORGY'S的RETE算法基于规则的系统的时间冗余性和结构相似性形成一个RETE网络进行模式匹配。

8.根据权利要求4所述的数据治理平台,其特征在于,所述数据清洗单元通过数据转换工具,根据所述数据质量检测报告对缺失数据、重复数据、噪声数据和异常真实数据进行可视化操作处理。

9.根据权利要求1所述的数据治理平台,其特征在于,所述元数据管理模块,包括:元数据发现单元、元数据更新单元、元数据查询单元、追踪日志收集单元、数据模式监视单元和元数据存储单元;

所述元数据发现单元,用于获得数据源的元数据;

所述数据模式监视单元,用于监视数据模式,捕获数据模式的变更;

所述元数据更新单元,用于根据数据模式的变更对所述元数据进行更新;

所述元数据查询单元,用于根据所述数据质量管理模块的需要提供元数据查询,获得数据源的信息;

所述追踪日志收集单元,用于收集数据源的追踪日志并提供对追踪日志的查询功能;

所述元数据存储单元,用于存储数据源的结构和数据源之间的关系。

10.根据权利要求4所述的数据治理平台,其特征在于,所述数据清洗单元进行清洗治理过程中包括:

对待清洗的数据进行预处理;

对预处理后的需要处理的缺失数据、需要去除的重复数据、需要去除的噪声数据和需要处理的异常真实数据进行清洗治理;

其中,在对需要处理的缺失数据进行清洗治理时,根据如下步骤进行:

A1、计算缺失数据的占比;

上述公式中,Hi表示第i个缺失数据的占比,w(i)表示第i个缺失数据的属性数据,count(w(i))表示缺失数据所述的属性数据的数量,count(Ω)表示所有数据的数量;

A2、对计算的缺失数据的占比进行判断;

上述公式中,Di表示判断值,h表示预设阈值,在这里取0.1;

当判断值小于0.27时,对于缺失数据即可直接删除,当判断值大于等于0.27时,进行步骤A3;

A3、对缺失数据进行替换;

上述公式中,ki表示缺失函数的数据,MODE表示取众数函数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三维天地科技股份有限公司,未经北京三维天地科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011409349.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top