[发明专利]基于规则的数据相对时效修复与异常检测方法有效

专利信息
申请号: 202010396337.4 申请日: 2020-05-12
公开(公告)号: CN111581185B 公开(公告)日: 2022-04-15
发明(设计)人: 郭兵;沈艳;段旭良;沈云柯;申云成;董祥千;张洪;周林;刘念祖;黄婉华;刘胜杰 申请(专利权)人: 四川大学
主分类号: G06F16/21 分类号: G06F16/21;G06F16/2458
代理公司: 暂无信息 代理人: 暂无信息
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 规则 数据 相对 时效 修复 异常 检测 方法
【说明书】:

数据时效性是反映数据时间特征的属性,对数据质量和价值有重要影响。数据的时间标记一旦丢失或篡改,很难进行绝对的精确修复。基于一些规律规则,修复数据相对时效,满足数据质量和数据挖掘对数据时序关系的需求是可行的。在数据时效规则相关研究基础上,对基本的时效规则进行了扩展,实现了规则的并行提取和增量更新;针对数据时效修复中遇到的问题和需求,提出基于规则的数据相对时效修复和异常检测方法,建立了评估修复结果的度量模型,同时探讨了应用数据时效修复检测时效异常数据的方法。实验结果和分析表明,扩展时效规则可行可用,相对时效修复算法可以有效地进行数据时序修复和异常时效数据的检测。

技术领域

发明涉及数据的时效性修复技术领域,尤其是涉及基于规则的数据相对时效修复与异常检测方法研究。

背景技术

大数据和人工智能时代,数据质量反映了数据的可用性和价值,是影响数据资产价值的核心因素之一。数据质量的评价是个复杂的问题,涉及到主观、客观等众多影响因素的多维度综合评估。一般来讲,数据的价值往往在数据挖掘、分析使用过程中得到更好的体现,国内外学者更多倾向是从数据可用性角度认识与定义数据质量,Sargent将数据质量定义为“使所有数据都能满足实际需求的能力”,Wang和Strong提出了“数据质量取决于这些数据是否适用于上下文并适合数据使用者的想法”。丁小欧等针对影响数据质量的4个关键性质完整性、精确性、一致性、时效性提出了综合评估框,确定了数据质量多维关联关系评估策略,李建中等深入总结研究了数据可用性判定问题,在国内外相关研究基础上总结提出一致性、精确性、完整性、时效性和实体同一性等5个实际可行的数据可用性度量指标,对其中“时效性”的解释是“每个信息都与时俱进,不过时”,并且指出数据精确性和数据时效性方面研究工作较少,亟需深入系统研究。

时效性是数据的重要属性,是数据有关时间的特征,反映了数据在其建模的世界中“新”的程度,关系到数据质量、数据可用性和数据价值。在数据分析、数据挖掘和数据增值应用中,如时间序列分析、流程挖掘、关联和推荐等算法中,数据时效的准确与否通常会决定数据分析结果的可靠性和可用性,使用过期或者时间错乱的数据可能会做出错误的决策。早在2002年,有专家报告指出,在商业和医疗领域,数据质量退化非常快,由于客户信息的变化,每月至少有2%的数据因过时失效,并且经过测算,如果这些过时数据没有被有效修复,在2年内会有近一半的数据记录因过时而不可用。面对纷繁芜杂的数据,如果无法确定数据的新旧,无法判断数据是否过时,数据查询可能会返回错误的结果,分析挖掘可能会得到相悖的结论,造成数据质量下降、可用性降低、生产要素地位被削弱和数据资产贬值。

数据时效的判定是改善提高数据质量的重要手段。在大数据和人工智能时代,人们的各类数据非集中化地分布在各类平台和系统中,形成很多数据孤岛,无法进行统一管理和更新、维护,数据时效不精确、数据过时带来的问题愈加严重。由于缺乏及时有效的维护或数据集成融合等原因,很多数据的时间戳经常不可用或不精确,很难完全依赖精确的时间戳进行数据的时效性判定。虽然时间戳有可能缺失或不精确,但是记录人们生产生活的数据是有一定的规律性的。例如一个人不同时期两条记录,学位状态分别为“学士”和“硕士”,即使没有时间戳,我们也可以确定“硕士”的记录要新一些,或者即便“学士”记录的时间戳更新一些,我们几乎也可以判定是时间戳有误或数据异常。婚姻状态、年龄、薪酬等很多属性都有类似的特征。通过在数据中学习和提取这些规律,虽然很难进行绝对的时效性判定、还原数据精确的时间戳,但是我们可以进行相对时效的判定、修复记录的先后顺序,判定数据的新旧,发现数据中的时效异常,提高数据时效质量和数据可用性,满足数据挖掘、创新应用的数据质量要求。

本发明研究了基于时效规则的数据相对时效修复和异常数据检测等问题,主要在以下几方面取得了一些进展和成果:

(1)对基本时效规则形式进行了扩展,进一步明确了时效规则相关概念和性质,扩展后的时效规则可支持并行算法和增量更新;

(2)提出了可并行的时效规则抽取算法,包括规则抽取,规则合并,增量更新算法;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010396337.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top