[发明专利]一种基于近邻传播聚类的集成分类器构建方法在审

申请号：	201610043784.5	申请日：	2016-01-22
公开（公告）号：	CN105550715A	公开（公告）日：	2016-05-04
发明（设计）人：	孟军;郝涵	申请（专利权）人：	大连理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	大连星海专利事务所 21208	代理人：	徐雪莲
地址：	116024 ***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于近邻传播聚类的集成分类器构建方法，包括以下步骤：S1、数据预处理；S2、获取特征距离负矩阵；S3、利用近邻传播聚类算法对特征进行聚类；S4、构建基分类器；S5、重复S4，直到基分类器数量达到预设值；S6、筛选基分类器；S7、基分类器集成。本发明能够与现有的特征过滤方法配合使用，具有更广阔的运用前景；采用bicor相关系数为关联准则利用近邻传播聚类对基因进行分组，并在此基础上采用随机选择的方式构建特征子空间，从而可以获得存在差异性和更优的基分类器；利用多数投票法进行融合基分类器，本发明的方法能够获得更好的分类效果，同时分类性能稳定。
搜索关键词：	一种基于近邻传播集成分类构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于近邻传播聚类的集成分类器构建方法，其特征在于，包括以下步骤：S1、数据预处理：利用基因数据采集系统获取包括多个样本的基因表达值及样本类标签的基因表达数据矩阵，所述基因表达数据矩阵中的每行为样本基因表达向量、基因表达数据矩阵中除类标签所在列的列向量为基因；将基因表达数据矩阵中的所述样本基因表达向量分组，并分别构成训练样本矩阵、测试样本矩阵和验证样本矩阵；将训练样本矩阵中的列向量作为训练基因，对所述训练基因进行欠抽样；然后对每次欠抽样扰动后的训练基因利用t′检验进行排序并保存每条训练基因在排序中的名次；将每条训练基因在每次扰动后得到的排序名次取均值作为该条训练基因的排序聚合观察值并保存至基因特征排序聚合观察值表；对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排序，得到特征有序表，最后选择特征有序表中位于前K个的排序聚合观察值所对应的训练基因作为列向量组成矩阵特征子集；S2、获取特征距离负矩阵：包括以下步骤：A1、利用bicor相关系数衡量特征子集的特征关联：将特征子集中的行向量作为样本特征向量，并计算两样本特征向量X＝(x₁,x₂,...,x_M)和Y＝(y₁,y₂,...,y_M)的bicor相关系数，bicor相关系数的计算公式如下：

<mrow><mi>b</mi><mi>i</mi><mi>c</mi><mi>o</mi><mi>r</mi><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>Y</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mover><mi>x</mi><mo>~</mo></mover><mi>i</mi></msub><msub><mover><mi>y</mi><mo>~</mo></mover><mi>i</mi></msub></mrow>

其中：

<mrow><msub><mover><mi>x</mi><mo>~</mo></mover><mi>i</mi></msub><mo>=</mo><mfrac><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><mi>m</mi><mi>e</mi><mi>d</mi><mo>(</mo><mi>X</mi><mo>)</mo><mo>)</mo><msubsup><mi>w</mi><mi>i</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msubsup></mrow><msqrt><mrow><msubsup><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></msubsup><msup><mrow><mo>[</mo><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><mi>m</mi><mi>e</mi><mi>d</mi><mo>(</mo><mi>X</mi><mo>)</mo></mrow><mo>)</mo><msubsup><mi>w</mi><mi>k</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msubsup><mo>]</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac></mrow>

<mrow><msub><mover><mi>y</mi><mo>~</mo></mover><mi>i</mi></msub><mo>=</mo><mfrac><mrow><mo>(</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><mi>m</mi><mi>e</mi><mi>d</mi><mo>(</mo><mi>Y</mi><mo>)</mo><mo>)</mo><msubsup><mi>w</mi><mi>i</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow></msubsup></mrow><msqrt><mrow><msubsup><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></msubsup><msup><mrow><mo>[</mo><mrow><mo>(</mo><msub><mi>y</mi><mi>k</mi></msub><mo>-</mo><mi>m</mi><mi>e</mi><mi>d</mi><mo>(</mo><mi>Y</mi><mo>)</mo></mrow><mo>)</mo><msubsup><mi>w</mi><mi>k</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow></msubsup><mo>]</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac></mrow>

<mrow><msubsup><mi>w</mi><mi>i</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msubsup><mo>=</mo><msup><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msubsup><mi>u</mi><mi>i</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mn>2</mn></msup><mi>I</mi><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mo>|</mo><msub><mi>u</mi><mi>i</mi></msub><mo>|</mo><mo>)</mo></mrow></mrow>

<mrow><msub><mi>u</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><mi>m</mi><mi>e</mi><mi>d</mi><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow></mrow><mrow><mn>9</mn><mi>m</mi><mi>a</mi><mi>d</mi><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow></mrow></mfrac></mrow>

<mrow><mi>I</mi><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mo>|</mo><msub><mi>u</mi><mi>i</mi></msub><mo>|</mo><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mi>1,</mi></mtd><mtd><mrow><mn>1</mn><mo>-</mo><mo>|</mo><msub><mi>u</mi><mi>i</mi></msub><mo>|</mo><mo>></mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><mi>0,</mi></mtd><mtd><mrow><mi>o</mi><mi>t</mi><mi>h</mi><mi>e</mi><mi>r</mi><mi>w</mi><mi>i</mi><mi>s</mi><mi>e</mi></mrow></mtd></mtr></mtable></mfenced></mrow>

med(.)为向量的中值，mad(.)为向量绝对中位差，M为基因的个数。A2、获取特征间的关联负矩阵：利用步骤A1得到特征间的bicor相关系数，通过如下公式计算特征之间的关联距离负值s(i,j)：

<mrow><mi>s</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><mfrac><mrow><mi>b</mi><mi>i</mi><mi>c</mi><mi>o</mi><mi>r</mi><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>,</mo><msub><mi>f</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>+</mo><mn>1</mn></mrow><mn>2</mn></mfrac><mo>)</mo></mrow><mi>β</mi></msup><mo>-</mo><mn>1</mn></mrow>

其中，β为常量；以s(i,j)作为矩阵元素得到特征间关联距离负矩阵S；S3、利用近邻传播聚类算法对特征进行聚类：将步骤A2得到的特征间关联距离负矩阵S输入近邻传播聚类函数，并将近邻传播聚类函数的参数值设定为bicor相关系数，将特征子集聚类为M1个簇集作为特征分组；S4、构建基分类器：从每个特征分组中随机选择一条基因有放回的生成大小为M1的特征集，在该特征集对应的特征子空间中，利用SVM支持向量机训练基分类器；S5、重复S4，直到基分类器数量达到预设值；S6、筛选基分类器：利用得到的基分类器预测验证样本矩阵中样本基因表达向量的样本类标签，将预测得到的样本类标签与验证样本矩阵中原有的样本类标签进行对比得到被正确分类的样本数量和未被正确分类的样本数量并根据对比结果计算属于每一个基分类器的kappa系数，筛选出大于预设值阈值的基分类器；其中，kappa系数的公式如下：

<mrow><mi>K</mi><mi>a</mi><mi>p</mi><mi>p</mi><mi>a</mi><mo>=</mo><mfrac><mrow><mi>p</mi><mi>r</mi><mrow><mo>(</mo><mi>a</mi><mo>)</mo></mrow><mo>-</mo><mi>p</mi><mi>r</mi><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow></mrow><mrow><mn>1</mn><mo>-</mo><mi>p</mi><mi>r</mi><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow></mrow></mfrac></mrow>

其中：

<mrow><mi>Pr</mi><mrow><mo>(</mo><mi>a</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mi>C</mi><mrow><mi>A</mi><mi>A</mi></mrow></msup><mi>L</mi></mfrac><mo>+</mo><mfrac><msup><mi>C</mi><mrow><mi>N</mi><mi>N</mi></mrow></msup><mi>L</mi></mfrac></mrow>

<mrow><mi>Pr</mi><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msup><mi>C</mi><mrow><mi>A</mi><mi>A</mi></mrow></msup><mo>+</mo><msup><mi>C</mi><mrow><mi>A</mi><mi>N</mi></mrow></msup></mrow><mi>L</mi></mfrac><mo>×</mo><mfrac><mrow><msup><mi>C</mi><mrow><mi>A</mi><mi>A</mi></mrow></msup><mo>+</mo><msup><mi>C</mi><mrow><mi>N</mi><mi>A</mi></mrow></msup></mrow><mi>L</mi></mfrac><mo>+</mo><mfrac><mrow><msup><mi>C</mi><mrow><mi>N</mi><mi>N</mi></mrow></msup><mo>+</mo><msup><mi>C</mi><mrow><mi>A</mi><mi>N</mi></mrow></msup></mrow><mi>L</mi></mfrac><mo>×</mo><mfrac><mrow><msup><mi>C</mi><mrow><mi>N</mi><mi>N</mi></mrow></msup><mo>+</mo><msup><mi>C</mi><mrow><mi>N</mi><mi>A</mi></mrow></msup></mrow><mi>L</mi></mfrac></mrow>

kappa混合矩阵为：C^AA表示属于A类被正确分类的数量，C^AN表示属于A类未被正确分类的数量，C^NA表示属于非A类的未被正确分类的数量，C^NN表示属于非A类被正确分类的数量，L为样本总数。S7、基分类器集成：对于步骤S6得到的基分类器，利用多数投票方法对基分类器的预测值进行融合，得到样本的预测值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610043784.5/，转载请声明来源钻瓜专利网。

上一篇：一种具有无线WIFI功能的移动储存电子设备
下一篇：一种基于改进自训练学习的脑电信号识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于近邻传播聚类的集成分类器构建方法在审

专利文献下载