[发明专利]一种基于过滤法和遗传算法的高维数据特征选择方法在审
申请号: | 201810344521.7 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108805159A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 葛瑞泉;马浙萍;吴卿;邬惠峰;徐岗 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/12 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征选择 高维数据 遗传算法 过滤法 删除 基因表达谱数据 最优特征子集 降序排序 生物意义 特征概率 系数计算 样本类别 重要意义 最大信息 传统的 强相关 弱相关 小样本 有效地 高维 降维 类标 判定 搜索 应用 优化 | ||
1.一种基于过滤法和遗传算法的高维数据特征选择方法,其特征在于:该方法的具体步骤如下:
步骤1、输入基因表达谱数据样本,数据样本包含患病人群和正常人群,数据样本属性是基因表达谱特征,又叫探针;
步骤2、应用最大信息系数计算各基因表达谱特征与类标之间的相关性;
步骤3、根据MIC值对特征进行降序排序,设置阈值,删除弱相关的特征;
步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。
2.根据权利要求1所述的一种基于过滤法和遗传算法的高维数据特征选择方法,其特征在于:所述的遗传算法采用MATLAB中的ga函数,设计ga函数中的适应度函数为公式(1):
FitVal=0.1*sum(chrom)+(1-Accuracy) (1)
其中chrom是一条由0、1组成的染色体,代表一个种群,0代表该种群不拥有此特征,1代表该种群拥有此特征,chrom长度为特征总数;sum(chrom)是指每个种群所拥有的特征数量,Accuracy是根据每个种群所选的特征进行分类建模得到的预测准确率。
3.根据权利要求2所述的一种基于过滤法和遗传算法的高维数据特征选择方法,其特征在于:所述的分类建模使用二分类器SVM,根据每个种群的特征子集对样本进行分类建模,使用FitVal评价效果。
4.根据权利要求1所述的一种基于过滤法和遗传算法的高维数据特征选择方法,其特征在于:所述的应用最大信息系数计算各基因表达谱特征与类标之间的相关性,具体如下:首先将一列基因表达谱特征记成向量X,一列类标记成向量Y,X中的一个x标量对应Y中的一个y标量组成一个样本;将所有样本化成散点图,然后根据给定网格行列分多种不同的网格去分割散点图,计算散点落入每个网格的概率为p(x,y),散点落入一列网格的概率为p(x),散点落入一行网格的概率为p(y);计算散点落入每个网格的概率,根据公式(2)计算在该种方案下的互信息值,比较各方案的互信息值,得到最大互信息值;继续用行列不同的网格重复上述步骤,比较多种行列不同的网格所得的最大互信息值,从中挑选出最大的值,即为最大信息系数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810344521.7/1.html,转载请声明来源钻瓜专利网。