[发明专利]一种基于机器学习的单个指标异常点自动判断系统在审
申请号: | 202011347615.3 | 申请日: | 2020-11-26 |
公开(公告)号: | CN112463852A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 李广海;吴巍;马文斌;孙学昌;王幸运 | 申请(专利权)人: | 华能通辽风力发电有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F17/16;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京共腾智慧专利代理事务所(普通合伙) 11608 | 代理人: | 朱贺芳 |
地址: | 028000 内蒙古自治区通*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 单个 指标 异常 自动 判断 系统 | ||
1.一种基于机器学习的单个指标异常点自动判断系统,其特征在于,包括如下步骤:
步骤1:从训练数据中随机选择N个样本点作为子采样,放入树的根节点;
步骤2:随机指定一个数据维度做投影,在当前节点数据中随机产生一个切割点p,切割点产生于当前节点数据中指定维度的最大值和最小值之间;
步骤3:以此切割点生成了一个超平面,然后将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左子节点,把大于等于p的数据放在当前节点的右子节点;
步骤4:在子节点中递归步骤2和3,不断构造新的子节点,直到子节点中只有一个数据或子节点已到达限定高度;
步骤5:对于一个训练数据x,使其遍历每一个子节点,然后计算x最终落在每个子节点第几层,即x在子节点中的高度;然后可以得出x在每个子节点的高度平均值;获得每个测试数据的高度平均值后,设置一个阈值,高度平均值低于此阈值的测试数据即为异常数据。
2.根据权利要求1所述的一种基于机器学习的单个指标异常点自动判断系统,其特征在于:步骤4中,获得t个子节点之后,计算机神经网络对于数据集合的训练就结束,然后可以用生成的算法模型来评估测试数据中的异常数据点了。
3.根据权利要求1所述的一种基于机器学习的单个指标异常点自动判断系统,其特征在于:步骤5中,根据单个指标异常点自动判断算法的基本架构如下:设置D是一个d维的数据集合,其中有N个样本,数据集的协方差矩阵是Σ,其协方差矩阵可以对角化进行计算:∑=PΔPT;
其中,P是(d,d)维的正交矩阵,其每一列都为Σ的特征向量。△是(d,d)维的对角矩阵,其特征值为λ1,…,λn;二维平面上,一个特征向量可以看做一条线,当在高维空间进行分类时,看成是一个超平面,每一个特征向量对应的一个特征值,而特征值反映了数据在这个特征向量方向上的拉伸情况,大多数情况下,把对角矩阵△中的特征值按照从大到小的顺序排列,矩阵P的每一列相应特征向量也进行调整,让P的第i列对应△的第i个对角值。
4.根据权利要求3所述的一种基于机器学习的单个指标异常点自动判断系统,其特征在于:数据集D在主成分空间的投影为如下形式:
Y=D×P;
其中,只在部分的维度上做投影,如果是使用选定维度数据阶乘矩阵的前j列的主成分,那么投影后的数据集是:
Yj=D×Pj;
其中,Pj是矩阵P的前j列,即Pj是(p,j)维的矩阵,Yj是一个(N,j)维的矩阵。
5.根据权利要求3所述的一种基于机器学习的单个指标异常点自动判断系统,其特征在于:如果考虑从主成分空间到原始空间的映射,重构之后的数据集合是:
Rj=(Pj×(Yj)T)T=Yj×(Pj)T;
其中,Rj是使用选定维度数据阶乘矩阵的前j列的主要成分进行重构之后的数据集,是一个(N,p)维的矩阵,下面可以定义数据Di=(Di,1,...,Di,p)的异常数据分数如下:
其中,指的是数据集合范数,ev(j)表示选定维度数据阶乘矩阵的前j列的主成分在所有主成分中占的比例,由于特征值是按从大到小进行排列的,因此ev(j)是递增的序列,这就表示j越高,越多的方差就会被考虑在ev(j)中,因为是从1到j的求和,所以在此定义下,最大偏差的第一主成分得到最小权,最后主成分最小偏差得到最大权值l,根据主成分分析的性质,异常值的偏差在最后的主成分上会较大,异常数据点会有较高的异常分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华能通辽风力发电有限公司,未经华能通辽风力发电有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011347615.3/1.html,转载请声明来源钻瓜专利网。