[发明专利]一种基于关联关系的双粒度噪声日志过滤方法有效
| 申请号: | 201910218832.3 | 申请日: | 2019-03-21 |
| 公开(公告)号: | CN110032494B | 公开(公告)日: | 2020-05-26 |
| 发明(设计)人: | 孙笑笑;侯文杰;俞东进;潘建梁 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06F11/30 | 分类号: | G06F11/30 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于关联关系的双粒度噪声日志过滤方法。该方法基于局部依赖度和全局依赖度计算得到混合依赖度,通过本发明方法能够同时实现日志中噪声事件的细粒度过滤和噪声轨迹的粗粒度过滤。相比于传统的日志过滤方法,本发明具有如下收益:1、采用了双粒度过滤机制,对于不同的噪声情景使用不同的过滤机制,从而在尽可能保留原始日志数据的情况下实现了优秀的过滤效果;2、使用过滤后的日志文件用于流程挖掘能极大提高流程发现模型的精度,增强了模型的可理解性。 | ||
| 搜索关键词: | 一种 基于 关联 关系 粒度 噪声 日志 过滤 方法 | ||
【主权项】:
1.一种基于关联关系的双粒度噪声日志过滤方法,其特征在于包括以下步骤:(1)输入原始日志文件,对其进行数据预处理后生成由多条流程轨迹σ组成的一个日志集合
每条流程轨迹由多个流程事件ei组成σ=<e1,...,en>,记所有流程轨迹中所有流程事件e的集合为ε,即e∈ε;(2)统计日志集合
中所有流程轨迹中两两流程事件之间的频次依赖度DFD(ei,ej);(3)进一步计算出两两事件之间的局部依赖度Deplocal(ei,ej),全局依赖度Depglobal(ei,ej)以及混合依赖度Depmixed(ei,ej);所述局部依赖度Deplocal(ei,ej)计算公式如下:
其中C1、C2为常数,Dsuc(ei)表示后继密度,即事件ei的所有后继事件发生的平均频次;Dpre(ej)表示前驱密度,用于表示事件ej的所有前驱事件发生的平均频次;后继密度和前驱密度的计算公式如下:Dpre(ek)=Npre(ek)/|Upre(ek)|Dsuc(ek)=Nsuc(ek)/|Usuc(ek)|![]()
其中Dpre(ek)为事件ek的前驱密度,Dsuc(ek)为事件ek的后继密度,Npre(ek)为以事件ek为后继事件的跟随关系的数量,Nsuc(ek)为事件ek为前趋事件的跟随关系的数量,Upre(ek)为事件ek的前驱集合,|Upre(ek)|为事件ek的前驱集合中的事件种类数,Usuc(ek)为事件ek的后继集合,|Usuc(ek)|事件ek的后继集合中的事件种类数;所述全局依赖度Depglobal(ei,ej)计算公式如下:
θ=Max{DFD(ex,ey)}
其中ζ为全局噪声因子,用于划分全局噪声事件。所述混合依赖度Depmixed(ei,ej)计算公式如下:Depmixed(ei,ej)=α*Deplocal(ei,ej)+(1‑α)*Depglobal(ei,ej)其中α权衡因子,用于平衡全局依赖度和局部依赖度的占有比例。(4)依据上一步中计算的混合依赖度构建日志集合
中所有流程事件的混合依赖矩阵
(5)开展日志噪声过滤,具体包含以下步骤:51)构建一个空的日志集
用于存放过滤后的轨迹;52)取出日志集
的一条轨迹σ,将σ的遗弃值
初始化为1;53)获取σ的开始事件estart并将开始事件estart添加到一个空的事件序列σfilter中;54)依照σ中的事件序列取出当前事件ei;55)取出轨迹中当前事件的下一事件ei+1;56)在
中搜寻到ei和ei+1的混合依赖度Depmixed(ei,ei+1),首先执行事件的细粒度过滤操作,如果Depmixed(ei,ei+1)的值不小于混合度阈值β,事件ei+1被判定为正常事件,将其添加到轨迹σfilter,ei+1成为当前事件,下标i=i+1,并返回步骤55);如果Depmixed(ei,ei+1)的值小于混合度阈值β,事件ei+1被判定为噪声事件,使用惩罚函数修改轨迹σ的遗弃值
惩罚函数公式如下:
其中
为惩罚因子,决定惩罚函数的惩罚力度;若修正后的遗弃值不低于设定的遗弃阈值
则返回步骤55);若修正后的遗弃值
低于遗弃阈值
则执行轨迹的粗粒度过滤操作,轨迹σ被判定为噪声轨迹,返回步骤52);57)如果事件ei+1为当前轨迹σ的结束事件eend,则将过滤轨迹σfilter添加到过滤日志集
中;58)重复步骤52)~步骤57),直到原始日志集中的所有轨迹均被取出;59)输出过滤日志集
(6)根据输出的过滤日志集
重新生成日志文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910218832.3/,转载请声明来源钻瓜专利网。
- 上一篇:页面的监控方法、装置、终端及可读存储介质
- 下一篇:数据异常检测方法和装置





