[发明专利]一种基于近邻传播聚类的集成分类器构建方法在审
| 申请号: | 201610043784.5 | 申请日: | 2016-01-22 |
| 公开(公告)号: | CN105550715A | 公开(公告)日: | 2016-05-04 |
| 发明(设计)人: | 孟军;郝涵 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 大连星海专利事务所 21208 | 代理人: | 徐雪莲 |
| 地址: | 116024 *** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 近邻 传播 集成 分类 构建 方法 | ||
1.一种基于近邻传播聚类的集成分类器构建方法,其特征在于,包括以下 步骤:
S1、数据预处理:利用基因数据采集系统获取包括多个样本的基因表达值 及样本类标签的基因表达数据矩阵,所述基因表达数据矩阵中的每行为样本基 因表达向量、基因表达数据矩阵中除类标签所在列的列向量为基因;将基因表 达数据矩阵中的所述样本基因表达向量分组,并分别构成训练样本矩阵、测试 样本矩阵和验证样本矩阵;将训练样本矩阵中的列向量作为训练基因,对所述 训练基因进行欠抽样;然后对每次欠抽样扰动后的训练基因利用t′检验进行排 序并保存每条训练基因在排序中的名次;将每条训练基因在每次扰动后得到的 排序名次取均值作为该条训练基因的排序聚合观察值并保存至基因特征排序聚 合观察值表;对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排 序,得到特征有序表,最后选择特征有序表中位于前K个的排序聚合观察值所 对应的训练基因作为列向量组成矩阵特征子集;
S2、获取特征距离负矩阵:包括以下步骤:
A1、利用bicor相关系数衡量特征子集的特征关联:将特征子集中的行向 量作为样本特征向量,并计算两样本特征向量X=(x1,x2,...,xM)和Y=(y1,y2,...,yM)的 bicor相关系数,bicor相关系数的计算公式如下:
其中:
med(.)为向量的中值,mad(.)为向量绝对中位差,M为基因的个数。
A2、获取特征间的关联负矩阵:利用步骤A1得到特征间的bicor相关系数, 通过如下公式计算特征之间的关联距离负值s(i,j):
其中,β为常量;以s(i,j)作为矩阵元素得到特征间关联距离负矩阵S;
S3、利用近邻传播聚类算法对特征进行聚类:将步骤A2得到的特征间关联 距离负矩阵S输入近邻传播聚类函数,并将近邻传播聚类函数的参数值设定为 bicor相关系数,将特征子集聚类为M1个簇集作为特征分组;
S4、构建基分类器:从每个特征分组中随机选择一条基因有放回的生成大 小为M1的特征集,在该特征集对应的特征子空间中,利用SVM支持向量机训练 基分类器;
S5、重复S4,直到基分类器数量达到预设值;
S6、筛选基分类器:利用得到的基分类器预测验证样本矩阵中样本基因表 达向量的样本类标签,将预测得到的样本类标签与验证样本矩阵中原有的样本 类标签进行对比得到被正确分类的样本数量和未被正确分类的样本数量并根据 对比结果计算属于每一个基分类器的kappa系数,筛选出大于预设值阈值的基 分类器;其中,kappa系数的公式如下:
其中:
kappa混合矩阵为:
CAA表示属于A类被正确分类的数量,CAN表示属于A类未被正确分类的数 量,CNA表示属于非A类的未被正确分类的数量,CNN表示属于非A类被正确分 类的数量,L为样本总数。
S7、基分类器集成:对于步骤S6得到的基分类器,利用多数投票方法对基 分类器的预测值进行融合,得到样本的预测值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610043784.5/1.html,转载请声明来源钻瓜专利网。





