[发明专利]基于相关向量机的多类数据分类方法无效
申请号: | 201110199365.8 | 申请日: | 2011-07-16 |
公开(公告)号: | CN102254193A | 公开(公告)日: | 2011-11-23 |
发明(设计)人: | 杜兰;马田香;刘宏伟;李志鹏;徐丹蕾 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/66 | 分类号: | G06K9/66 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;朱红星 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 相关 向量 数据 分类 方法 | ||
技术领域
本发明属于数据处理技术领域,涉及数据分类,特别是一种针对多类数据的识别分类方法,用于目标识别中。
背景技术
数据分类是用来区分不同目标数据,把不同的目标数据尽可能的区分开,从而能在大量不同目标数据中识别出各个目标数据。现阶段的数据分类方法主要是研究两类数据分类的问题,两类数据分类方法主要有支持向量机方法和相关向量机方法。支持向量机SVM是Cortes和Vapnik于1995年首次提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。SVM最初用于解决两类数据分类问题,不能直接用于多类数据分类问题。相关向量机RVM是Tipping于2001年在贝叶斯框架的基础上提出的,它与SVM一样,通过核函数映射将低维空间的非线性问题转化为高维空间的线性问题。与SVM相比,RVM不需要估计正则化参数,核函数也不需要满足Mercer条件,需要更少的相关向量,训练时间长,测试时间短。对于Logistic模型和Probit模型的RVM两类数据分类方法,可以很容易的推广到多类数据分类上。
目前,多类数据分类方法主要有以下几种:
一、SVM多类数据分类方法。这种方法大致可以分为两大类:一是通过某种方式构造一系列的两类数据分类器,并将它们组合在一起来实现多类数据分类,这类SVM多类数据分类方法包括一对多算法和一对一算法;二是将多个分类面的参数求解合并到一个最优化问题中,通过求解最优化问题“一次性”地实现多类数据分类,这类方法主要有二次规划算法。其中:
一对多算法,依次用一个两类SVM分类器将每一类数据与其它所有类数据区分开,得到K个分类函数,分类时将未知数据分类为具有最大分类函数值的那一类。这种方法的好处是每个优化问题的规模都很小,而且分类时速度比较快,但会有分类重叠或不可分类现象,造成数据集的偏斜。
一对一算法,是在每两类数据间训练一个两类SVM分类器,对于一个K类问题,将有K(K-1)/2个分类函数,当对一个未知样本进行分类时,每个分类器都对其类别进行判断,并为相应的类别“投上一票”,最后得票最多的类别即作为该未知样本的类别。虽然分类器的数目多了,但在算出这些分类器的分类平面时,所用的总时间却比一对多方法少,但又存在分类重叠现象。
二次规划算法,是在训练时将K个分类面的参数求解合并到一个最优化问题中,通过二次规划方法求解最优化问题所需的参数,在测试时采用与一对多算法相同的判决方法,即对于某个输入样本,其分类结果为各子分类器输出值最大的那个类别,此算法不适合对类别数多的数据分类。
二、基于Logistic模型的多类数据分类方法。该方法是一种基于多元Logistic Regression模型的多类表述,如文献“Sparse Multinomial Logistic Regression:Fast Algorithms and Generalization Bounds,IEEE Trans.on Pattern Analysis and Machine Intelligence,Vol.27,2005.”。该文献通过边界优化方法与按分量逐个迭代的结合,实现对大样本数及高特征维数据的稀疏多类数据分类。此方法假设具有稀疏化特性的拉普拉斯先验信息,在最大后验准则下构造分类器,存在近似计算的不足。
发明内容
本发明的目的在于克服上述已有多类数据分类技术的缺点,提出一种基于相关向量机的多类数据分类方法,以减小近似计算量,避免分类重叠,实现对类别数多的数据分类。
实现本发明目的的技术方案是以多元Probit为模型,利用变分贝叶斯方法进行最优化问题的求解,通过一次性的求解出分类所需参数,而无需构造多个两类分类器进行组合分类,避免分类重叠现象,适用类别数多的数据分类;同时通过假设参数的先验分布为共轭先验分布,使后验分布与先验分布具有相同的形式,从而很方便的写出参数的后验分布,进行后验参数的求解,以减小近似计算。具体步骤包括如下:
(1)将多类数据集划分成交叉验证数据集V、训练数据集R和测试数据集T,并对其进行归一化预处理,使数据的不同特征在同一尺度上;
(2)确定相关向量机的核函数类型,根据归一化预处理后的交叉验证数据集V′确定该相关向量机的核参数;
(3)基本参数设置;
(3a)设置相关向量机的迭代次数L=100、迭代数l0=0、收敛阈值σ=10-6;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110199365.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置