[发明专利]一种基于模拟退火的扩展孤立森林的异常检测方法及系统在审

专利信息
申请号: 202210492295.3 申请日: 2022-05-07
公开(公告)号: CN114943861A 公开(公告)日: 2022-08-26
发明(设计)人: 吴永凯;王诗愉;杨煜杭;应文豪 申请(专利权)人: 江苏易透健康科技有限公司
主分类号: G06V10/764 分类号: G06V10/764;G06V10/774;G06F16/2458
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 226000 江苏省南通市崇*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 模拟 退火 扩展 孤立 森林 异常 检测 方法 系统
【说明书】:

发明公开了一种基于模拟退火的扩展孤立森林的异常检测方法及系统,本发明从EIF算法泛化能力弱、构建了冗余的iTree导致算法的时间开销较大等问题入手,根据选择性集成思想提出一种基于模拟退火的扩展孤立森林方法,对构建EIF的iTree使用了择优再组合的集成方法,最终在ODDS异常检测数据集中的实验结果表明,SA‑ELF算法较EIF算法提升了约5%的检测精度,减少了约30%的时间开销;同时,与iForest相比,本发明改善了iForest对于局部异常点检测不敏感的问题。

技术领域

本发明涉及数据挖掘,特别是一种基于模拟退火的扩展孤立森林的异常检测方法及系统。

背景技术

在数据挖掘中,异常检测是指对不符合预期模式的样本进行识别,从数据集中识别出与大多数样本差异较大的对象。异常点也被称为离群值、噪声和偏差等通常被认为是与其他数据点明显不同或不符合整体预期正常模式的数据点异常检测是数据挖掘领域中一个重要的方面,被广泛应用于各个领域。例如,在医学领域中,异常数据可能意味着禽流感等传染类疾病的预警,而在天文领域中,异常数据则可能标志着新星的发现。因此,异常数据可能具备和正常数据相等的科学价值。

虽然异常目前在关键技术上已经有所突破,但它仍存在许多问题,如局部异常点不敏感的问题。根据异常检测所使用技术的不同,分为基于连接函数的异常检测方法,基于距离的异常检测方法,基于密度评估的异常检测方法等。在基于密度评估的局部异常检测方法中,解决了数据倾斜分布下的异常检测问题,基于密度评估的局部离群因子检测方法通过计算局部可达密度来得到每一个样本点的局部离群因子,最后根据阈值判断该样本点是否异常,取得了较好的结果,但是,基于密度评估的局部异常检测方法时间复杂度均在O(n2),这种方法在大规模数据集上的计算成本很高。同时,因为数据相似度的计算离不开距离计算,所以可能会面临距离计算上的“维数灾难”问题。随着大数据时代的到来,数据集的数量和维度呈爆炸式增长,基于此,设计出在高维数据集上表现良好的异常检测算法具有重要意义。

发明内容

发明目的:本发明的目的是提供一种基于模拟退火的扩展孤立森林的异常检测方法及系统,从而在保证精度的同时减少时间成本。

技术方案:本发明所述的一种基于模拟退火的扩展孤立森林的异常检测方法,包括以下步骤:

S1、数据采集:通过离群值检测数据库收集其中的真实数据集,所述数据集包括低维数据集和高维数据集,样本数量较少的数据集和样本数量较多的数据集;

S2、数据预处理:对于样本数量较少的数据集Lympho,则采用10折交叉验证求平均值的方法进行实验,对于其他数据集则采用5折交叉验证法;设置iTree的初始参数,构建L棵iTree组成初始EIF,使用数据集对参与集成的L棵iTree进行训练,基于Q-统计量法计算iTree之间的平均差异值,再根据K折交叉验证法计算每棵iTree的精度值;

S3、结合模拟退火算法构建EIF:结合模拟退火算法从L棵iTree中选出k棵检测性能较优的iTree构建EIF;算法重复执行“产生新解→计算目标函数差→判断是否接受新解→接受或舍弃”的迭代过程,如果满足终止条件则终止上述过程,并输出当前选择的iTree;否则,减小控制参数t的值,并重复上述过程;最终使用从T棵iTree中选择的k棵iTree来构建EIF;

S4、结果评测:对测试集X使用构建的EIF进行检测,根据实例x在每棵iTree中的平均路径长度E(h(x))计算其异常分数S(x,ψ)。

所述步骤S3具体为:

S3.1、首先初始化参数:设初始温度t=t0,结束温度t',Metropolis链的长度即任意温度的迭代次数C,任取一棵iTree作为初解Ti

S3.2、产生新解:基于当前温度t的大小,随机扰动产生一个新解Tj

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏易透健康科技有限公司,未经江苏易透健康科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210492295.3/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top