[发明专利]一种基于无监督学习的自动筛选有效特征的方法在审
申请号: | 202011353569.8 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112464154A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 章艺;王强;符栋梁;俞炅旻;周璞;马佳 | 申请(专利权)人: | 中国船舶重工集团公司第七0四研究所 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06N20/00 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 徐俊 |
地址: | 200031*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 自动 筛选 有效 特征 方法 | ||
1.一种基于无监督学习的自动筛选有效特征的方法,其特征在于,包括如下步骤:
步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集X,其中样本有m个,维度为n维;
步骤2、设定阈值ε,对数据集X进行PCA降维,选择尽可能小的主成分数量K;
步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
若t小于K,则原始数据集的这个特征不可被移除;
若t等于K,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;
步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。
2.如权利要求1所述的一种基于无监督学习的自动筛选有效特征的方法,其特征在于:所述PCA降维过程具体包括:
步骤S1、均值归一化,计算出待降维的数据集中所有特征Xj的均值μj,j=1,2,…,n;归一化后的矩阵值
步骤S2、计算协方差矩阵∑,
步骤S3、计算协方差矩阵∑的特征值Sii和特征向量Ui,由特征向量Ui构成特征向量矩阵U,通过公式zi=UT·xi计算出降维压缩后的新特征向量,其中,xi是原始特征向量,zi是降维后的特征向量;在降维压缩后,通过公式近似地还原原有特征。
3.如权利要求1所述的一种基于无监督学习的自动筛选有效特征的方法,其特征在于:通过公式确定阈值ε和主成分数量K,令K=1,然后计算上式比例是否小于ε,如果不小于则令K=2,以此类推,直到找到使得比例小于ε的最小值K。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶重工集团公司第七0四研究所,未经中国船舶重工集团公司第七0四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011353569.8/1.html,转载请声明来源钻瓜专利网。