[发明专利]一种基于多列关系的数据有效性评估方法及系统在审
申请号: | 201911362836.5 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111125172A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 唐雪飞;蒲高飞;黄永鑫;王东方;胡茂秋 | 申请(专利权)人: | 成都康赛信息技术有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2458 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 刘冬静 |
地址: | 610054 四川省成都市成华区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关系 数据 有效性 评估 方法 系统 | ||
本发明公开一种基于多列关系的数据有效性评估方法及系统,应用于大数据分析处理领域,针对现有技术对于预先不知道数据之间存在什么样的关系,因而无法了解字段是否有效的问题,本发明首先使用近似函数依赖算法发现数据表中各字段间的关系,然后找到支持度最高的字段组合进行分析得到对应的关系表达式,最后校验字段各行数据是否符合该关系表达式;若符合该关系表达式,则对应的数据有效;否则无效;本发明的方法及系统实现了对常规数据有效性评估。
技术领域
本发明属于大数据分析处理领域,特别涉及一种对结构化数据的有效性评估技术。
背景技术
结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。
基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。
数据无处不在。随着数据创建的数量、来源和速度的增加,数据质量问题也日益严重。数据治理越来越引起各企事业单位的重视。有效地评估数据质量是数据治理的关键。其中数据有效性是数据质量评估的一个重要维度,侧重评估数据是否可用,是否是正确有效的。通常评估数据有效性会针对单个字段的特点首先规定数据有效的规则,然后将字段真实的值与规定规则一一匹配,筛选出不符合规则的值。事实上,这种评估方式可以解决大多数的应用场景。但是这种方法无法解决如下问题:
如果该字段与其他字段存在某种关系,且我们预先不知道存在什么样的关系,我们则无法设置校验字段值是否有效的规则,因此无法使用上面的方法评估该字段值与其他字段值是否满足对应的关系。例如,表中存在字段F1,F2,F3,我们预先不知道它们的关系,实际上它们需要满足F1+F2=F3的关系才算有效数据。使用传统的方法根本无法去找到不满足该关系的数据。
发明内容
为解决上述技术问题,本发明提出一种基于多列关系的数据有效性评估方法,先通过近似函数依赖算法TANE发现字段间的关系,然后使用关系规则去校验每一行存在该关系相关字段数据值是否有效,最后筛选出不满足关系的数据行的方法。该方法可以作为常规数据有效性评估方法的补充。
本发明采用的技术方案为:一种基于多列关系的数据有效性评估方法,首先使用近似函数依赖算法TANE发现数据表中各字段间的关系,然后找到支持度最高的字段组合进行分析得到对应的关系表达式(如a+b+c=d,ab),最后校验字段各行数据是否符合该关系表达式;若符合该关系表达式,则对应的数据有效;否则无效。
使用近似函数依赖算法TANE发现表中各字段间的关系后,还包括:采用基于支持度的排序策略。
使用近似函数依赖算法TANE发现表中各字段间的关系,包括若干候选近似函数。
所述基于支持度的排序策略具体为按照候选近似函数的支持度进行降序排序。
一种基于多列关系的数据有效性评估系统,包括:规则挖掘模块、策略模块、关系表达式生成模块以及筛选模块;所述规则挖掘模块采用近似函数依赖算法从数据表中挖掘得到近似函数依赖;所述策略模块对挖掘出的近似函数依赖采用基于支持度的排序策略;所述关系表达式生成模块根据策略模块输出的最高支持度对应的近似函数依赖生成关系表达式;所述筛选模块根据生成的关系表达式对数据表中的数据进行筛选。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都康赛信息技术有限公司,未经成都康赛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911362836.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:LED封装结构
- 下一篇:一种挂绊式主动对接纵向补油装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置