[发明专利]数据处理方法、装置、网络设备及存储介质在审
| 申请号: | 202110678862.X | 申请日: | 2021-06-18 |
| 公开(公告)号: | CN113420804A | 公开(公告)日: | 2021-09-21 |
| 发明(设计)人: | 郑忠斌;王朝栋;彭新 | 申请(专利权)人: | 工业互联网创新中心(上海)有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
| 地址: | 201306 上海市浦东*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 网络设备 存储 介质 | ||
1.一种数据处理方法,其特征在于,包括:
获取目标数据集,采用最短分叉树粗糙聚类算法对所述目标数据集进行粗糙聚类,根据粗糙聚类结果形成多个最短分叉树;
采用基于粗糙聚类邻域信息系统的阈值剪枝算法对所述最短分叉树进行剪枝与合并,得到精简后的最短分叉树;
采用均衡融合数据局部多特征因子的异常值检测算法计算所述精简后的最短分叉树中数据对象的异常度,并根据所述异常度确定并剔除所述目标数据集中的异常数据值。
2.根据权利要求1所述的数据处理方法,其特征在于,在所述采用均衡融合数据局部多特征因子的异常值检测算法计算所述精简后的最短分叉树中数据对象的异常度,并根据所述数据对象的异常度确定并剔除所述目标数据集中的异常数据值之后,还包括:
采用改进的稀疏自编码器对所述目标数据集进行降维,其中,所述改进的稀疏自编码器采用稀疏规则算子替代KL相对熵作为稀疏性约束项,并采用L2范数作为正则项。
3.根据权利要求2所述的数据处理方法,其特征在于,所述采用改进的稀疏自编码器对所述目标数据集进行降维,包括:
根据改进的稀疏自编码器构建以下目标损失函数:
其中,所述λ1为稀疏惩罚项权重,所述λ2为权重衰减系数,s2代表隐藏层神经元的数量,W表示神经网络权重系数,b代表神经网络偏置项,j代表神经元的索引,J(W,b)表示所述稀疏自编码器初始的损失函数项,Jspare(W,b)表示改进后的稀疏自编码器的目标损失函数;
根据所述目标损失函数对所述目标数据集进行降维。
4.根据权利要求1所述的数据处理方法,其特征在于,所述采用均衡融合数据局部多特征因子的异常值检测算法计算所述精简后的最短分叉树中数据对象的异常度,并根据所述数据对象的异常度确定并剔除所述目标数据集中的异常数据值,包括:
根据Ti-stand=Ti+|min(Ti)|对所述精简后的最短分叉树中的数据进行标准化;
根据计算同一最短分叉树中各节点之间的距离,其中,Ndis(x)为最短分叉树各节点之间的距离的计算结果,x为指定的数据对象,xi为所述最短分叉树类中的其它数据对象,K表示所述最短分叉树类中数据对象的个数,exp(1)表示以e为底,指数为1的常值;
分别根据以下公式计算所述最短分叉树中数据的变异系数:
其中,所述T表示任意最短分叉树簇类中所有节点的距离之和,i表示所述T的索引标号,xq表示所述最短分叉树中的各节点距离,k表示所述簇类中包含的节点个数,所述Nstd(T)为类的标准差,j表示最短分叉树的个数,所述Nmean(T)是类的平均值,所述Ncv(T)为所述变异系数;
根据计算类中数据对象的局部相对接近度;
根据局部相对接近度计算将所述MDILAF作为数据对象的异常度,并根据所述异常度确定并剔除所述目标数据集中的异常数据值,其中,所述Nx为数据对象x的最短分叉树,所述|N(x)|为类中其余所有数据对象的距离之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于工业互联网创新中心(上海)有限公司,未经工业互联网创新中心(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110678862.X/1.html,转载请声明来源钻瓜专利网。





