[发明专利]一种基于多列关系的数据有效性评估方法及系统在审

专利信息
申请号: 201911362836.5 申请日: 2019-12-26
公开(公告)号: CN111125172A 公开(公告)日: 2020-05-08
发明(设计)人: 唐雪飞;蒲高飞;黄永鑫;王东方;胡茂秋 申请(专利权)人: 成都康赛信息技术有限公司
主分类号: G06F16/2455 分类号: G06F16/2455;G06F16/2458
代理公司: 成都虹盛汇泉专利代理有限公司 51268 代理人: 刘冬静
地址: 610054 四川省成都市成华区*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 关系 数据 有效性 评估 方法 系统
【说明书】:

发明公开一种基于多列关系的数据有效性评估方法及系统,应用于大数据分析处理领域,针对现有技术对于预先不知道数据之间存在什么样的关系,因而无法了解字段是否有效的问题,本发明首先使用近似函数依赖算法发现数据表中各字段间的关系,然后找到支持度最高的字段组合进行分析得到对应的关系表达式,最后校验字段各行数据是否符合该关系表达式;若符合该关系表达式,则对应的数据有效;否则无效;本发明的方法及系统实现了对常规数据有效性评估。

技术领域

本发明属于大数据分析处理领域,特别涉及一种对结构化数据的有效性评估技术。

背景技术

结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。

基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。

数据无处不在。随着数据创建的数量、来源和速度的增加,数据质量问题也日益严重。数据治理越来越引起各企事业单位的重视。有效地评估数据质量是数据治理的关键。其中数据有效性是数据质量评估的一个重要维度,侧重评估数据是否可用,是否是正确有效的。通常评估数据有效性会针对单个字段的特点首先规定数据有效的规则,然后将字段真实的值与规定规则一一匹配,筛选出不符合规则的值。事实上,这种评估方式可以解决大多数的应用场景。但是这种方法无法解决如下问题:

如果该字段与其他字段存在某种关系,且我们预先不知道存在什么样的关系,我们则无法设置校验字段值是否有效的规则,因此无法使用上面的方法评估该字段值与其他字段值是否满足对应的关系。例如,表中存在字段F1,F2,F3,我们预先不知道它们的关系,实际上它们需要满足F1+F2=F3的关系才算有效数据。使用传统的方法根本无法去找到不满足该关系的数据。

发明内容

为解决上述技术问题,本发明提出一种基于多列关系的数据有效性评估方法,先通过近似函数依赖算法TANE发现字段间的关系,然后使用关系规则去校验每一行存在该关系相关字段数据值是否有效,最后筛选出不满足关系的数据行的方法。该方法可以作为常规数据有效性评估方法的补充。

本发明采用的技术方案为:一种基于多列关系的数据有效性评估方法,首先使用近似函数依赖算法TANE发现数据表中各字段间的关系,然后找到支持度最高的字段组合进行分析得到对应的关系表达式(如a+b+c=d,ab),最后校验字段各行数据是否符合该关系表达式;若符合该关系表达式,则对应的数据有效;否则无效。

使用近似函数依赖算法TANE发现表中各字段间的关系后,还包括:采用基于支持度的排序策略。

使用近似函数依赖算法TANE发现表中各字段间的关系,包括若干候选近似函数。

所述基于支持度的排序策略具体为按照候选近似函数的支持度进行降序排序。

一种基于多列关系的数据有效性评估系统,包括:规则挖掘模块、策略模块、关系表达式生成模块以及筛选模块;所述规则挖掘模块采用近似函数依赖算法从数据表中挖掘得到近似函数依赖;所述策略模块对挖掘出的近似函数依赖采用基于支持度的排序策略;所述关系表达式生成模块根据策略模块输出的最高支持度对应的近似函数依赖生成关系表达式;所述筛选模块根据生成的关系表达式对数据表中的数据进行筛选。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都康赛信息技术有限公司,未经成都康赛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911362836.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top