[发明专利]基于随机化贪心特征选择的集成分类方法有效
申请号: | 201710209168.7 | 申请日: | 2017-04-01 |
公开(公告)号: | CN106991296B | 公开(公告)日: | 2019-12-27 |
发明(设计)人: | 孟军;张晶 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20 |
代理公司: | 21200 大连理工大学专利中心 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 随机化 贪心 特征 选择 集成 分类 方法 | ||
1.一种基于随机化贪心特征选择的集成分类方法,其特征在于,步骤如下:
(1)在传统的贪心算法中引入随机性进行特征选择
随机选取第一个特征,来扩大对特征的搜索空间;
(2)将在复杂网络中作为社区发现评价指标的加权本地模块化函数,作为随机化贪心算法的启发信息
复杂网络的特性有小世界、无标度和社区结构,本集成分类方法将数据挖掘技术与复杂网络相结合,使用复杂网络中社区发现的评价指标作为启发信息进行特征选择;
加权本地模块化函数计算过程如下:
1)构建加权无向图G(V,A),其中,基因微阵列数据集中的样本作为图中的顶点,对于任意两个顶点u1和u2,如果u1∈k-NN(u2)或u2∈k-NN(u1),则两个顶点之间存在权重为WE=exp(-d(u1,u2))的边;k-NN(u1)包含顶点u1的k近邻,d(u1,u2)为两个顶点之间的距离;
2)依据样本的类别自然地对样本进行社区的划分
3)对于每个特征子集,计算其基于加权本地模块化函数的重要度,表达式如下:
其中:c为待分类基因微阵列数据集的类别数量;wi是在第i个社区中内部边权重的总和;Wi是社区i中内部边加上邻接边权重的总和;vi是社区i中所有顶点的度的总和,顶点的度代表与其邻接的边的权重总和;
引入随机性的基于加权本地模块化函数的特征选择过程如下:
1)设置当前的特征子集F={};
2)随机选取一个特征加入到F中;
3)对于每个不包含在F中的特征g,依据属性集合F+{g},计算其重要程度;
4)找到使得步骤3)中的重要程度最大的特征g’,令F=F+{g’},重复该步骤直到特征子集F中的特征数量达到最大阈值;
(3)在每个特征子集上使用支持向量机算法训练基分类器
1)对于两类问题,如果将某一超平面两侧的样本点分为正类和负类,则用符号函数的方式推断样本x所对应类别的决策函数如下:
f(x)=wTx+b (1-2)
其中,w为超平面的法向量,决定超平面的方向;b为位移项,决定超平面与原点之间的距离;x为代表样本的向量;
2)满足如下公式(1-3)的条件下,找到分类间隔最大的超平面:
s.t.yj[(wTxj)+b]-1≥0,j=1,2,...,n
其中,yj为样本xj的类别标签;
3)将最大间隔法求解最优分类面的最优化问题转化为其对偶问题,通过求解相对简单的对偶问题来求解原分类问题,其公式如下:
αp≥0,p=1,2,...,n
其中,αp和αq为使用拉格朗日乘子法得到对偶问题的每个样本的拉格朗日乘子系数;
4)通过引入松弛变量和惩罚因子来解决非线性分类问题,其优化目标为:
s.t.yj[(wTxj+b)]≥1-ζj(j=1,2,...,n)
其中,ζj为松弛变量,C是松弛变量的权重;
5)SVM通过用内积函数定义的非线性变换,将输入空间变换到高维空间,然后再在高维空间中求最优分类面的分类方法,使得在低维空间中线性不可分的问题变换为在高维空间中线性可分的问题;令表示将x映射后的特征向量,在特征空间中划分超平面对应的模型和相应的优化模型表示如下:
f(x)=wTφ(x)+b (1-6)
s.t.yj[(wTφ(xj))+b]-1≥0(j=1,2,...n)
6)引入核函数,将复杂的最优化问题的求解,简化为对原有样本数据的内积运算;
κ(xp,xq)=φ(xp)Tφ(xq) (1-8)
αp≥0,p=1,2,...,n
通过不断执行步骤(2)中的特征选择过程,产生多个特征子集;对应每个特征子集形成一个训练集用于训练SVM基分类器;
(4)对基分类器采用近邻传播聚类算法进行聚簇划分
1)构建相似性矩阵S,将其作为近邻传播聚类算法的输入,以每个基分类器在验证集上的分类结果作为数据点,矩阵中元素s(e,m)表示数据点e和m之间的相似性,数值越大则表明两个数据点之间的相似性越大;
在基因选择阶段,N个基因子集被选出,命名为每个基因子集用于形成一个训练集,其中只包含样本在该基因子集上的表达值;因此,经过训练得到N个基分类器每个基分类器在验证集上的分类结果作为一个数据点,相似性矩阵中元素s(e,m)表示基分类器He和Hm之间的相似性,其中,e=1,2,...,N,m=1,2,...,N;在计算相似性的过程中,首先要考虑的是分类器的分类性能,另外基分类器选用的不同的特征数量也是相似性计算过程中的重要因素;基分类器He和Hm之间的相似性定义为:
s(e,m)=(Ntt+Nff)/(Ntt+Ntf+Nft+Nff)-DN(e,m) (1-10)
其中,Ntt表示为同时被两个基分类器正确分类的验证集中样本数量;Nff表示为同时被两个基分类器错误分类的验证集中样本数量;在验证集中被基分类器He分类正确但是被Hm错误分类的样本数量表示为Ntf,Nft与Ntf相反;两个基分类器分类结果相同的样本数量与验证集中总体样本的数量之比就是它们之间分类性能的相似性;DN(e,m)是两个基分类器使用的基因子集中不同基因的数量在总体基因数量中所占的比率;
2)设置相似性矩阵对角线上的值s(h,h),该值称作数据点即基分类器在验证集上的分类结果h的参考度,该值越大说明该数据点更加适合作为聚簇中心,因此生成的聚簇个数也就越多;为了保证每个数据点具有相同的机会成为聚簇代表点,将所有数据点的参考度设置为相同的数值;
3)在AP聚类算法中,每一个数据点都被视为潜在的聚簇中心,数据点之间不断地进行信息传递直到算法收敛或迭代结束;AP聚类算法在迭代的过程中传递两种信息,r(e,m)表示数据点m作为数据点e的聚簇中心的适应程度;a(e,m)表示数据点e选择数据点m作为其聚簇中心的倾向程度;r(e,m)和a(e,m)的计算公式如下:
r(e,m)=s(e,m)-max{a(e,l)+s(e,l)(l∈{1,2,...,N,l≠m}) (1-11)
为了提高AP聚类算法的稳定性,引入阻尼系数λ,r(e,m)和a(e,m)受到上一次迭代的计算值的约束,改进后的计算公式如下:
rt=(1-λ)rt+λrt-1 (1-13)
at=(1-λ)at+λat-1 (1-14)
其中,rt和at代表第t次迭代的结果,rt-1和at-1代表第t-1次的迭代结果;
4)AP聚类自动确定聚簇代表点,在迭代的过程中如果r(h,h)+a(h,h)>0,则选择数据点h作为聚簇中心;迭代结束之后将剩余的数据点分配给距其最近的聚簇中心;
(5)使用聚簇中作为类代表点的基分类器进行集成,采用简单多数投票法形成集成分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710209168.7/1.html,转载请声明来源钻瓜专利网。