[发明专利]一种基于无监督学习的自动筛选有效特征的方法在审
申请号: | 202011353569.8 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112464154A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 章艺;王强;符栋梁;俞炅旻;周璞;马佳 | 申请(专利权)人: | 中国船舶重工集团公司第七0四研究所 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06N20/00 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 徐俊 |
地址: | 200031*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 自动 筛选 有效 特征 方法 | ||
本发明公开了一种基于无监督学习的自动筛选有效特征的方法,包括数据集构建;设定阈值ε,对数据集进行PCA降维,选择尽可能小的主成分数量K;依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,自动筛选数据集的有效特征。本发明通过对原数据特征进行降维,不生成新特征,即降维的同时保留原特征的实际含义,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。
技术领域
本发明涉及一种基于无监督学习的自动筛选有效特征的方法,属于人工智能、数据清洗、数据降维领域。
背景技术
在诸多业务场景中,都存在着工程师根据大量的特征数据进行结果分析和判断的过程,而对于缺乏经验的工程师来说,他们无法判断哪些特征是有用的,哪些是可以忽略的。例如在故障分析中,工程师利用频域的幅值分析机器是否运转异常时,都是根据基频、倍频等频率的幅值是否异常来判断机器是否故障。因此,如何快速为工程师提供精确、有效、直接的特征,对于人工进行数据分析的效率和准确率起到了重要的作用。
当工程师面对大量的特征数据时,一般先采用PCA算法对数据进行降维,再对数据进行分析。然而PCA的降维过程是由维度多的原数据特征生成维度少的新数据特征。由于新数据特征对工程师来说无实际物理意义,这给工程师根据特征进行数据分析的方式造成了很大的困难。
发明内容
本发明要解决的技术问题是:提供一种基于无监督学习的自动筛选有效特征的方法,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。
为了解决上述问题,本发明的技术方案是提供了一种基于无监督学习的自动筛选有效特征的方法,其特征在于,包括如下步骤:
步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集X,其中样本有m个,维度为n维;
步骤2、设定阈值ε,对数据集X进行PCA降维,选择尽可能小的主成分数量K;
步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
若t小于K,则原始数据集的这个特征不可被移除;
若t等于K,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;
步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。
优选地,所述PCA降维过程具体包括:
步骤S1、均值归一化,计算出待降维的数据集中所有特征Xj的均值μj,j=1,2,…,n;归一化后的矩阵值
步骤S2、计算协方差矩阵∑,
步骤S3、计算协方差矩阵∑的特征值Sii和特征向量Ui,由特征向量Ui构成特征向量矩阵U,通过公式zi=UT·xi计算出降维压缩后的新特征向量,其中,xi是原始特征向量,zi是降维后的特征向量;在降维压缩后,通过公式近似地还原原有特征。
优选地,通过公式确定阈值ε和主成分数量K,令K=1,然后计算上式比例是否小于ε,如果不小于则令K=2,以此类推,直到找到使得比例小于ε的最小值K。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶重工集团公司第七0四研究所,未经中国船舶重工集团公司第七0四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011353569.8/2.html,转载请声明来源钻瓜专利网。