[发明专利]一种基于近邻传播聚类的集成分类器构建方法在审

专利信息
申请号: 201610043784.5 申请日: 2016-01-22
公开(公告)号: CN105550715A 公开(公告)日: 2016-05-04
发明(设计)人: 孟军;郝涵 申请(专利权)人: 大连理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 大连星海专利事务所 21208 代理人: 徐雪莲
地址: 116024 *** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于近邻传播聚类的集成分类器构建方法,包括以下步骤:S1、数据预处理;S2、获取特征距离负矩阵;S3、利用近邻传播聚类算法对特征进行聚类;S4、构建基分类器;S5、重复S4,直到基分类器数量达到预设值;S6、筛选基分类器;S7、基分类器集成。本发明能够与现有的特征过滤方法配合使用,具有更广阔的运用前景;采用bicor相关系数为关联准则利用近邻传播聚类对基因进行分组,并在此基础上采用随机选择的方式构建特征子空间,从而可以获得存在差异性和更优的基分类器;利用多数投票法进行融合基分类器,本发明的方法能够获得更好的分类效果,同时分类性能稳定。
搜索关键词: 一种 基于 近邻 传播 集成 分类 构建 方法
【主权项】:
一种基于近邻传播聚类的集成分类器构建方法,其特征在于,包括以下步骤:S1、数据预处理:利用基因数据采集系统获取包括多个样本的基因表达值及样本类标签的基因表达数据矩阵,所述基因表达数据矩阵中的每行为样本基因表达向量、基因表达数据矩阵中除类标签所在列的列向量为基因;将基因表达数据矩阵中的所述样本基因表达向量分组,并分别构成训练样本矩阵、测试样本矩阵和验证样本矩阵;将训练样本矩阵中的列向量作为训练基因,对所述训练基因进行欠抽样;然后对每次欠抽样扰动后的训练基因利用t′检验进行排序并保存每条训练基因在排序中的名次;将每条训练基因在每次扰动后得到的排序名次取均值作为该条训练基因的排序聚合观察值并保存至基因特征排序聚合观察值表;对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排序,得到特征有序表,最后选择特征有序表中位于前K个的排序聚合观察值所对应的训练基因作为列向量组成矩阵特征子集;S2、获取特征距离负矩阵:包括以下步骤:A1、利用bicor相关系数衡量特征子集的特征关联:将特征子集中的行向量作为样本特征向量,并计算两样本特征向量X=(x1,x2,...,xM)和Y=(y1,y2,...,yM)的bicor相关系数,bicor相关系数的计算公式如下:<mrow><mi>b</mi><mi>i</mi><mi>c</mi><mi>o</mi><mi>r</mi><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>Y</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mover><mi>x</mi><mo>~</mo></mover><mi>i</mi></msub><msub><mover><mi>y</mi><mo>~</mo></mover><mi>i</mi></msub></mrow>其中:<mrow><msub><mover><mi>x</mi><mo>~</mo></mover><mi>i</mi></msub><mo>=</mo><mfrac><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><mi>m</mi><mi>e</mi><mi>d</mi><mo>(</mo><mi>X</mi><mo>)</mo><mo>)</mo><msubsup><mi>w</mi><mi>i</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msubsup></mrow><msqrt><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></msubsup><msup><mrow><mo>&lsqb;</mo><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><mi>m</mi><mi>e</mi><mi>d</mi><mo>(</mo><mi>X</mi><mo>)</mo></mrow><mo>)</mo><msubsup><mi>w</mi><mi>k</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msubsup><mo>&rsqb;</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac></mrow><mrow><msub><mover><mi>y</mi><mo>~</mo></mover><mi>i</mi></msub><mo>=</mo><mfrac><mrow><mo>(</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><mi>m</mi><mi>e</mi><mi>d</mi><mo>(</mo><mi>Y</mi><mo>)</mo><mo>)</mo><msubsup><mi>w</mi><mi>i</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow></msubsup></mrow><msqrt><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></msubsup><msup><mrow><mo>&lsqb;</mo><mrow><mo>(</mo><msub><mi>y</mi><mi>k</mi></msub><mo>-</mo><mi>m</mi><mi>e</mi><mi>d</mi><mo>(</mo><mi>Y</mi><mo>)</mo></mrow><mo>)</mo><msubsup><mi>w</mi><mi>k</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow></msubsup><mo>&rsqb;</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac></mrow><mrow><msubsup><mi>w</mi><mi>i</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msubsup><mo>=</mo><msup><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msubsup><mi>u</mi><mi>i</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mn>2</mn></msup><mi>I</mi><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mo>|</mo><msub><mi>u</mi><mi>i</mi></msub><mo>|</mo><mo>)</mo></mrow></mrow><mrow><msub><mi>u</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><mi>m</mi><mi>e</mi><mi>d</mi><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow></mrow><mrow><mn>9</mn><mi>m</mi><mi>a</mi><mi>d</mi><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow></mrow></mfrac></mrow><mrow><mi>I</mi><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mo>|</mo><msub><mi>u</mi><mi>i</mi></msub><mo>|</mo><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mi>1,</mi></mtd><mtd><mrow><mn>1</mn><mo>-</mo><mo>|</mo><msub><mi>u</mi><mi>i</mi></msub><mo>|</mo><mo>&gt;</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><mi>0,</mi></mtd><mtd><mrow><mi>o</mi><mi>t</mi><mi>h</mi><mi>e</mi><mi>r</mi><mi>w</mi><mi>i</mi><mi>s</mi><mi>e</mi></mrow></mtd></mtr></mtable></mfenced></mrow>med(.)为向量的中值,mad(.)为向量绝对中位差,M为基因的个数。A2、获取特征间的关联负矩阵:利用步骤A1得到特征间的bicor相关系数,通过如下公式计算特征之间的关联距离负值s(i,j):<mrow><mi>s</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><mfrac><mrow><mi>b</mi><mi>i</mi><mi>c</mi><mi>o</mi><mi>r</mi><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>,</mo><msub><mi>f</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>+</mo><mn>1</mn></mrow><mn>2</mn></mfrac><mo>)</mo></mrow><mi>&beta;</mi></msup><mo>-</mo><mn>1</mn></mrow>其中,β为常量;以s(i,j)作为矩阵元素得到特征间关联距离负矩阵S;S3、利用近邻传播聚类算法对特征进行聚类:将步骤A2得到的特征间关联距离负矩阵S输入近邻传播聚类函数,并将近邻传播聚类函数的参数值设定为bicor相关系数,将特征子集聚类为M1个簇集作为特征分组;S4、构建基分类器:从每个特征分组中随机选择一条基因有放回的生成大小为M1的特征集,在该特征集对应的特征子空间中,利用SVM支持向量机训练基分类器;S5、重复S4,直到基分类器数量达到预设值;S6、筛选基分类器:利用得到的基分类器预测验证样本矩阵中样本基因表达向量的样本类标签,将预测得到的样本类标签与验证样本矩阵中原有的样本类标签进行对比得到被正确分类的样本数量和未被正确分类的样本数量并根据对比结果计算属于每一个基分类器的kappa系数,筛选出大于预设值阈值的基分类器;其中,kappa系数的公式如下:<mrow><mi>K</mi><mi>a</mi><mi>p</mi><mi>p</mi><mi>a</mi><mo>=</mo><mfrac><mrow><mi>p</mi><mi>r</mi><mrow><mo>(</mo><mi>a</mi><mo>)</mo></mrow><mo>-</mo><mi>p</mi><mi>r</mi><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow></mrow><mrow><mn>1</mn><mo>-</mo><mi>p</mi><mi>r</mi><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow></mrow></mfrac></mrow>其中:<mrow><mi>Pr</mi><mrow><mo>(</mo><mi>a</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mi>C</mi><mrow><mi>A</mi><mi>A</mi></mrow></msup><mi>L</mi></mfrac><mo>+</mo><mfrac><msup><mi>C</mi><mrow><mi>N</mi><mi>N</mi></mrow></msup><mi>L</mi></mfrac></mrow><mrow><mi>Pr</mi><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msup><mi>C</mi><mrow><mi>A</mi><mi>A</mi></mrow></msup><mo>+</mo><msup><mi>C</mi><mrow><mi>A</mi><mi>N</mi></mrow></msup></mrow><mi>L</mi></mfrac><mo>&times;</mo><mfrac><mrow><msup><mi>C</mi><mrow><mi>A</mi><mi>A</mi></mrow></msup><mo>+</mo><msup><mi>C</mi><mrow><mi>N</mi><mi>A</mi></mrow></msup></mrow><mi>L</mi></mfrac><mo>+</mo><mfrac><mrow><msup><mi>C</mi><mrow><mi>N</mi><mi>N</mi></mrow></msup><mo>+</mo><msup><mi>C</mi><mrow><mi>A</mi><mi>N</mi></mrow></msup></mrow><mi>L</mi></mfrac><mo>&times;</mo><mfrac><mrow><msup><mi>C</mi><mrow><mi>N</mi><mi>N</mi></mrow></msup><mo>+</mo><msup><mi>C</mi><mrow><mi>N</mi><mi>A</mi></mrow></msup></mrow><mi>L</mi></mfrac></mrow>kappa混合矩阵为:CAA表示属于A类被正确分类的数量,CAN表示属于A类未被正确分类的数量,CNA表示属于非A类的未被正确分类的数量,CNN表示属于非A类被正确分类的数量,L为样本总数。S7、基分类器集成:对于步骤S6得到的基分类器,利用多数投票方法对基分类器的预测值进行融合,得到样本的预测值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610043784.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top