[发明专利]一种用于异常检测的大数据特征降维方法及工具在审
| 申请号: | 201910588399.2 | 申请日: | 2019-07-01 |
| 公开(公告)号: | CN110288047A | 公开(公告)日: | 2019-09-27 |
| 发明(设计)人: | 郝虹;高岩;于治楼;姜凯 | 申请(专利权)人: | 山东浪潮人工智能研究院有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 冯春连 |
| 地址: | 250100 山东省济南市高新*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征降维 降维 异常检测 大数据 计算处理 最大信息 可去除 度量 分类 数据处理技术 重要性参数 采样模块 技术发展 冗余特征 综合计算 分模块 贡献度 系数和 再使用 自定义 融合 | ||
本发明公开一种用于异常检测的大数据特征降维方法,涉及数据处理技术领域。针对目前技术发展中仅使用最大信息系数度量冗余特征容易误删对于分类重要的特征这一问题,采用技术方案:融合使用最大信息系数和自定义的分类重要性参数,通过度量属性之间的相关性及对于分类的贡献度,得到每个特征的综合得分,根据综合得分决定降维时可去除的特征。本发明还公开一种用于异常检测的大数据特征降维工具,使用采样模块、计算处理总模块、计算处理分模块、综合计算模块最终得出每个特征的得分,最后再使用降维模块根据每个特征的得分情况使用降维策略进行特征降维,本工具与前述方法相结合,共同得出降维时可去除的特征。
技术领域
本发明涉及数据处理技术领域,具体的说是一种用于异常检测的大数据特征降维方法及工具。
背景技术
真实世界中,每时每刻都在产生着各种数据,这些数据中蕴含着丰富的潜在知识,各行各业的决策者也意识到了大数据的价值,进而利用云计算、数据挖掘等新型技术从大数据中挖掘知识,用来支持决策。在异常检测应用中,由于不确定引起异常的因素,为了不漏检,在数据预处理阶段,采集来的大数据通常会保留有大量的冗余特征,这样导致的问题是会增加后期相关计算量,进而影响异常检测效率,同时某些无关属性也会影响异常检测准确率。
最大信息系数具有普适性、公平性和对称性,在数据样本量足够大时,能充分发掘变量间的线性和非线性关联关系,这点正适合于大数据冗余特征检测,但是仅使用最大信息系数度量冗余特征容易误删对于分类重要的特征。
因此,融合最大信息系数(Maximal Information Coefficient,MIC)和自定义的分类重要性参数,提出一种用于异常检测的大数据特征降维方法及工具。
发明内容
本发明针对目前技术发展中仅使用最大信息系数度量冗余特征容易误删对于分类重要的特征这一问题,提供一种用于异常检测的大数据特征降维方法及工具。
首先,本发明公开一种用于异常检测的大数据特征降维方法,解决上述技术问题采用的技术方案如下:
一种用于异常检测的大数据特征降维方法,该方法融合使用最大信息系数和自定义的分类重要性参数,通过度量属性之间的相关性及对于分类的贡献度,得到每个特征的综合得分,根据综合得分决定降维时可去除的特征。
所述大数据特征降维方法自定义的分类重要性参数包括:
用于计算所有特征两两之间相关关系的最大信息系数C;
用于度量对于分类贡献的自定义参数D。
所述大数据特征降维方法的实现流程为:
1)随机采样数据仓库中的正常样本数据集和异常样本数据集,正常样本数据集和异常样本数据集的样本量保持同一量级;
2)在整体样本空间计算所有特征两两之间的MIC值,并对数值归一化,得到多维数组;
3)在每一组中,各自求每列数值的均值和方差,利用均值和方差求出分类重要性参数,并对数值归一化;
4)利用步骤2)、步骤3)中数值求出每个特征的得分;
5)根据得分使用降维策略进行特征降维。
具体的,在步骤1)中,假定正常样本数据集和异常样本数据集的量级分别为np和nn,正常样本数据集和异常样本数据集的特征维数均为m(f1,f2,···,fm),则组成两个样本数组:Ip(np*m),In(nn*m)。
具体的,在整体样本空间计算所有特征两两之间的MIC值,对应写到一个m*m的数组中,并对数组中的数值归一化:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮人工智能研究院有限公司,未经山东浪潮人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910588399.2/2.html,转载请声明来源钻瓜专利网。





