[发明专利]一种基于近邻传播聚类的集成分类器构建方法在审

申请号：	201610043784.5	申请日：	2016-01-22
公开（公告）号：	CN105550715A	公开（公告）日：	2016-05-04
发明（设计）人：	孟军;郝涵	申请（专利权）人：	大连理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	大连星海专利事务所 21208	代理人：	徐雪莲
地址：	116024 ***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于近邻传播集成分类构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于近邻传播聚类的集成分类器构建方法，其特征在于，包括以下步骤：

S1、数据预处理：利用基因数据采集系统获取包括多个样本的基因表达值及样本类标签的基因表达数据矩阵，所述基因表达数据矩阵中的每行为样本基因表达向量、基因表达数据矩阵中除类标签所在列的列向量为基因；将基因表达数据矩阵中的所述样本基因表达向量分组，并分别构成训练样本矩阵、测试样本矩阵和验证样本矩阵；将训练样本矩阵中的列向量作为训练基因，对所述训练基因进行欠抽样；然后对每次欠抽样扰动后的训练基因利用t′检验进行排序并保存每条训练基因在排序中的名次；将每条训练基因在每次扰动后得到的排序名次取均值作为该条训练基因的排序聚合观察值并保存至基因特征排序聚合观察值表；对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排序，得到特征有序表，最后选择特征有序表中位于前K个的排序聚合观察值所对应的训练基因作为列向量组成矩阵特征子集；

S2、获取特征距离负矩阵：包括以下步骤：

A1、利用bicor相关系数衡量特征子集的特征关联：将特征子集中的行向量作为样本特征向量，并计算两样本特征向量X＝(x₁,x₂,...,x_M)和Y＝(y₁,y₂,...,y_M)的 bicor相关系数，bicor相关系数的计算公式如下：

bicor(X,Y)=Σi=1Mx~iy~i]]>

其中：

x~i=(xi-med(X))wi(x)Σk=1M[(xk-med(X))wk(x)]2]]>

y~i=(yi-med(Y))wi(y)Σk=1M[(yk-med(Y))wk(y)]2]]>

wi(x)=(1-ui2)2I(1-|ui|)]]>

ui=xi-med(X)9mad(X)]]>

I(1-|ui|)=1,1-|ui|>00,otherwise]]>

med(.)为向量的中值，mad(.)为向量绝对中位差，M为基因的个数。

A2、获取特征间的关联负矩阵：利用步骤A1得到特征间的bicor相关系数，通过如下公式计算特征之间的关联距离负值s(i,j)：

s(i,j)=(bicor(fi,fj)+12)β-1]]>

其中，β为常量；以s(i,j)作为矩阵元素得到特征间关联距离负矩阵S；

S3、利用近邻传播聚类算法对特征进行聚类：将步骤A2得到的特征间关联距离负矩阵S输入近邻传播聚类函数，并将近邻传播聚类函数的参数值设定为 bicor相关系数，将特征子集聚类为M1个簇集作为特征分组；

S4、构建基分类器：从每个特征分组中随机选择一条基因有放回的生成大小为M1的特征集，在该特征集对应的特征子空间中，利用SVM支持向量机训练基分类器；

S5、重复S4，直到基分类器数量达到预设值；

S6、筛选基分类器：利用得到的基分类器预测验证样本矩阵中样本基因表达向量的样本类标签，将预测得到的样本类标签与验证样本矩阵中原有的样本类标签进行对比得到被正确分类的样本数量和未被正确分类的样本数量并根据对比结果计算属于每一个基分类器的kappa系数，筛选出大于预设值阈值的基分类器；其中，kappa系数的公式如下：

Kappa=pr(a)-pr(e)1-pr(e)]]>