[发明专利]一种基于算法多样性的异常检测算法集成方法及系统在审
申请号: | 201911406458.6 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111159508A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 梁淑云;刘胜;马影;陶景龙;王启凡;魏国富;徐明;殷钱安;余贤喆;周晓勇 | 申请(专利权)人: | 上海观安信息技术股份有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 张景云 |
地址: | 200333 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 算法 多样性 异常 检测 集成 方法 系统 | ||
本发明提供一种基于算法多样性的异常检测算法集成方法,包括以下方法:S01.使用多个异常检测算法建立多个基础训练器,分别对样本集进行预测,并对预测结果进行处理生成伪标签;S02.针对每个基础训练器,计算其预测结果与伪标签的相关系数;S03.对所有异常检测算法进行分类;S04.对每个分类,选取相关系数最高且高于设定阈值的TOPN算法,建立算法组合;S05.使用算法组合进行异常检测,输出异常点。本专利将有监督学习的多样性模型集成思想引入异常检测中,提出将异常检测算法按照算法的实现机制分类,选用归属不同分类的算法进行集成,提高集成方案对不同局部分布异常点的预测精度。
技术领域
本发明涉及数据异常检测技术领域,具体来说是一种基于算法多样性的异常检测算法集成方法及系统。
背景技术
在无监督学习领域的异常检测中,目前已实现多种算法,但这些算法都是基于单一数据分布实现,在符合该数据分布的情况下表现良好,而在其他分布下表现较差。这些算法在不同的数据集中表现各有优劣,并不存在绝对的最佳算法。图1和图2为选自PyOD库中的异常检测算法在不同数据集的ROC表现和Precision@n表现(https://pyod.readthedocs.io/en/latest/benchmark.html),从图1图2中可以看出,加粗数据和非加粗数据差异较大。图中杂乱的数据说明每个算法并非在每一个数据集上都有好的预测效果。
现有技术中,在每次异常检测任务中,都需要在几十种异常检测算法中进行选择。但是目前对于异常检测算法的集成仍在研究中,缺少成熟的算法选用守则。
发明内容
本发明所要解决的技术问题在于异常检测技术中,选择出的算法或算法组合并非在每一个数据集上都有好的预测效果。
本发明通过以下技术手段实现解决上述技术问题的:
一种基于算法多样性的异常检测算法集成方法,包括以下方法:
S01.使用多个异常检测算法建立多个基础训练器,分别对样本集进行预测,并对预测结果进行处理生成伪标签;
S02.针对每个基础训练器,计算其预测结果与伪标签的相关系数;
S03.对所有异常检测算法进行分类;
S04.对每个分类,选取相关系数最高且高于设定阈值的TOPN算法,建立算法组合;
S05.使用算法组合进行异常检测,输出异常点。
本专利将有监督学习的多样性模型集成思想引入异常检测中,提出将异常检测算法按照算法的实现机制分类,选用归属不同分类的算法进行集成,提高集成方案对不同局部分布异常点的预测精度。
优选的,所述步骤S01中,将多种异常检测算法预测结果的函数汇总作为伪标签;汇总函数为取均值或取最大值或取最大值的均值或取均值的最大值。
优选的,所述步骤S03中,对所有异常检测算法进行分类的原则为:根据算法的实现机制进行分类。
优选的,所述步骤S04中,选取相关系数最高且高于设定阈值的TOPN算法具体方法为:
1)确定相关系数阈值和相关系数排名阈值;
2)初始化算法组合列表,生成空列表;
3)构建算法字典,所述算法字典内包括所有算法分类;
4)然循环遍历算法字典的算法分类,循环遍历某一算法分类里的算法,如果该算法的相关系数≥相关系数阈值且该算法的相关系数排名<相关系数排名阈值,则将该算法加入算法组合列表。
本发明还提供一种基于算法多样性的异常检测算法集成系统,包括
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海观安信息技术股份有限公司,未经上海观安信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911406458.6/2.html,转载请声明来源钻瓜专利网。