[发明专利]基于规则的数据相对时效修复与异常检测方法有效

专利信息
申请号: 202010396337.4 申请日: 2020-05-12
公开(公告)号: CN111581185B 公开(公告)日: 2022-04-15
发明(设计)人: 郭兵;沈艳;段旭良;沈云柯;申云成;董祥千;张洪;周林;刘念祖;黄婉华;刘胜杰 申请(专利权)人: 四川大学
主分类号: G06F16/21 分类号: G06F16/21;G06F16/2458
代理公司: 暂无信息 代理人: 暂无信息
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 规则 数据 相对 时效 修复 异常 检测 方法
【权利要求书】:

1.基于规则的数据相对时效修复与异常检测方法,其特征在于该方法的技术步骤如下:

1)基本时效规则的扩展

在时效规则的定义中,每一条规则有一个支持度属性,其基本形式为:BASE_RULE(规则,支持度);这里的时效规则是一种二元规则,表示两个状态的先后顺序,支持度sr可以表示为:

对于某时效规则r,Sr表示支持度,O(r)为服从该规则的实体的集合,|O(r)|为服从该规则的实体的数量,V(r),|V(r)|分别表示违背该规则的实体集合和违背该规则的实体的数量,f(r)表示为强度函数,是一个表示服从该规则实体的频数的函数,如可选取Logistic函数作为强度函数:

其中k是变化率,r0为平移常数,r=r0时,f(r)函数值为0.5;如设置r0=10,则服从频数小于等于10时,f(r)函数值域为(0,0.5],服从频数大于10时,f(r)函数值域为(0.5,1.0);

为了实现规则的增量更新和算法的并行化、保留更多规则信息以利于时效修复和数据质量评价,对基本时效规则形式进行了扩展,每一条规则保留了更多信息,扩展后的规则形式为:

EXTEND_RULE(规则,服从数,违背数,平均长度)

其中,服从数o为数据集中满足该规则的实体数,违背数v表示数据集中违背该规则的实体数,平均长度len表示规则的状态节点经过的边的数量;扩展后的时效规则与原规则是相容的,不影响原时效规则支持度的计算,且满足以下重要性质:

性质1规则的可加性:不同记录集扫描得到的两条相同规则,可以合并为一条规则;

R1(pre→post,o1,v1,len1)

R2(pre→post,o2,v2,len2)

R1+R2=R3(pre→post,o,v,len)

其中,pre和post表示规则中的两个状态,o=o1+o2,v=v1+v2,

规则的可加性是实现规则库增量更新和并行化计算的重要条件;

性质2规则的逆反性:某规则R(pre→post,o,v,len),其逆规则为R'(post→pre,v,o,-len);

规则的逆反性可有效减少需要存储的规则数量,如规则a→b和规则b→a是可逆的;

2)可并行的时效规则抽取算法

·时效规则抽取算法

算法1时效规则抽取算法:

输入:包含多个实体的记录集,每个实体对应具有时间戳属性的多条记录,实体集为E,在记录集的属性A上提取状态类型时效规则;

输出:形式为EXTEND_RULE(规则,服从数,违背数,平均长度)的时效规则集合CRS;

算法步骤:

①对于实体集E中每一个实体e,在记录集中选出实体e的所有元组按照时间戳升序排序,并给每个元组设定一个排序序号,从1开始依次递增,时间戳相同的元组的排序序号相同;N表示实体e的所有元组数目;

②对于实体e中的所有元组,如果第i个元组的排列序号小于第j个元组,则建立规则R,R的名称为“Ti[A]→Tj[A]”,其中Ti[A]表示第i个元组的属性A的值,Tj[A]表示第j个元组的属性A的值,i的取值范围是从1到N-1的整数,j的取值范围是从i+1到N的整数;R的服从数为1,违背数为0,平局长度为第j个元组与第i个元组排序序号的差值;将规则R插入到集合CRS中;

③规则R的插入:在集合CRS中,如果规则R已经存在,对规则R进行更新,如算法3;如果规则R不存在但其逆规则存在,计算规则R的逆规则R′,如算法2,对规则R′进行更新,如算法3;如果规则R以及它的逆规则R′都不存在,则直接添加规则R;

④将实体集E中每一个实体的所有元组都按照步骤②和③抽取规则并插入到集合CRS中;

算法2计算逆规则算法

输入:时效规则R(pre→post,o,v,len)

输出:原规则的逆规则R'(pre'→post',o',v',len')

算法步骤:给pre'赋值为post,post'赋值为pre,o'赋值为v,v'赋值为o,len'赋值为-len;

算法3时效规则更新算法

输入:更新前的时效规则集合CRS,根据规则R属性值对CRS进行更新;

输出:更新后的时效规则集合CRS;

算法步骤:

①从集合CRS中选出与规则R(pre→post,o,v,len)名称相同的规则R1(pre→post,o1,v1,len1);

②给o1重新赋值为o1+o,v1重新赋值为v1+v,len1重新赋值为:

len1=((o1+v1)*len1+(o+v)*len)/(o1+v1+o+v) (3)

③对规则R1的更新写入到集合CRS中;

·规则抽取算法的增量更新

算法4时效规则集合增量更新算法

输入:已有的时效规则集合CRS,新增的包含多个实体的数据记录集合IRS,新增的实体集为E,在记录集的属性A上提取状态类型时效规则;

输出:更新后的时效规则集合CRS;

算法步骤:

①根据算法1,在记录集合IRS中抽取属性A的状态时效规则,记为ICRS;

②对于ICRS中的每一个规则R,将R插入到集合CRS中;如果规则R已经存在,对规则R进行更新,如算法3;如果规则R不存在但其逆规则存在,计算规则R的逆规则R′,如算法2,对规则R′进行更新,如算法3;如果规则R以及它的逆规则R′都不存在,则直接添加规则R;

·规则抽取算法的并行化

时效规则的提取,可以在多个节点上并行执行;首先对需要提取规则的数据集按记录的实体进行分割,同一实体的记录尽量不分散到多个节点,多个结点上同时运行算法1抽取时效规则集合,对抽取到的n个规则集合CRS1,CRS2,CRS3,…,CRSn,可以在单个结点或多个结点上按一定策略执行算法4进行合并;

在对规则集进行合并时,可以采用两种合并策略:

第一种合并策略是在单个结点上非并行执行,依次将第2,3,…,n个规则集合并到第1个规则集,第n个集合处理完成后,得到的第1个集合即为完备的规则集,无法并行执行,时间复杂度为O(n-1);

第二种策略合并规则集合分别在不同结点上完成,不同集合合并可以同时进行,最后合并成一个完备的规则集合,时间复杂度为O(log(n));

3)基于规则的数据相对时效修复与异常检测

·数据时序修复

在一个数据记录集中,如果某实体的数据集时间标签丢失,可以通过提取其他实体的状态时效规则,计算并修复丢失时间标签的数据集的数据相对时序;

算法5数据相对时效修复算法

输入:已提取的时效规则集合CRS,待修复记录时序的实体e的缺失时效标签的数据集T,指定的时效属性A;

输出:修复完成的按相对时序排列的实体e的记录集合T′;

算法步骤:

①记集合T中的元组数目为n,从第一个元组开始,计算每个元组的属性A的值作为规则名称中左边部分的所有规则路径长度之和;

②路径长度之和的计算:对于第i个元组,其路径长度之和Li初始为0,依次选择第1,2,…,i-1,i+1,…,n个元组的属性A的值作为规则名称的右边部分,更新路径长度之和;假如选择到了第j个元组,则组成的规则名称为’Ti[A]→Tj[A]’,如果该规则及其逆规则不存在于集合CRS中,Li的值不变,如果该规则或其逆规则存在于集合CRS中且平均长度和支持度分别为len(r)和sr,则Li更新为:

Li=Li+len(r)*sr (4)

其中,支持度sr由公式(1)计算得到;

③当计算得到每个元组的属性A的值作为规则名称左边部分的所有路径长度之和后,按照路径长度之和降序对元组排序,排序后的元组即为按照相对时序排列的数据集;

·有冲突与无冲突时效修复

无冲突时序修复,是指某实体待修复的记录本质上是按时间标签严格递增或递减的序列,由于某种原因造成时间标记不准确或者缺失,顺序错乱,需要进行时序修复;

有冲突时序修复,是指某实体待修复的记录本质上是并非是按时间标签严格递增或递减的序列,有一部分记录的状态的值是相同的,顺序错乱,需要进行时序修复;

针对这两类数据时效修复问题,分别引用或定义一些修复度量标准,用作评价修复算法有效性的模型;

模型1肯德尔相关系数

使用τA对无冲突时序修复效果进行评价:

其中,其中nc表示两个随机变量中拥有一致性的顺序元素对的个数;nd表示不一致性的元素对的个数,n0为所有的二元顺序对的个数;

模型2一致规则比例

适用于无冲突和有冲突时序修复;考虑两个可能存在相同元素的、有序的随机变量X和Y,nX表示随机变量X的二元顺序对的个数,nc表示两个随机变量中拥有一致性的元素对数,一致规则比例表示为:

模型3分段正确率

适用于有冲突时序修复评价;元素个数为n,每一部分重复元素划分为一个区间段,一共有ns个区间,修复后序列按对应区间段统计相应元素落入这个区间段的个数,第i个区间的正确元素个数为nci,最后统计所有划分到正确区间的元素所占比例:

·基于时效修复的异常数据检测

对于待检测的实体集E中的每一个实体e,判断实体e的数据记录是否存在异常的检测过程如下:

①检索e的所有数据记录,按时间标签升序排列,时间缺失的记录可置于最先或最后,得到序列S1;

②对序列S1进行随机乱序,然后基于时效规则,对其进行时序修复,得到修复后的序列S2;

③根据序列S1判断是有冲突还是无冲突修复,根据修复类型选择合适的度量标准,计算修复前序列和修复后序列的时序相关性,即度量模型值,根据设定的阈值判定实体e是否异常。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010396337.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top