[发明专利]基于相关向量机的多类数据分类方法无效

申请号：	201110199365.8	申请日：	2011-07-16
公开（公告）号：	CN102254193A	公开（公告）日：	2011-11-23
发明（设计）人：	杜兰;马田香;刘宏伟;李志鹏;徐丹蕾	申请（专利权）人：	西安电子科技大学
主分类号：	G06K9/66	分类号：	G06K9/66
代理公司：	陕西电子工业专利中心 61205	代理人：	王品华;朱红星
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于相关向量数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据处理技术领域，涉及数据分类，特别是一种针对多类数据的识别分类方法，用于目标识别中。

背景技术

数据分类是用来区分不同目标数据，把不同的目标数据尽可能的区分开，从而能在大量不同目标数据中识别出各个目标数据。现阶段的数据分类方法主要是研究两类数据分类的问题，两类数据分类方法主要有支持向量机方法和相关向量机方法。支持向量机SVM是Cortes和Vapnik于1995年首次提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。SVM最初用于解决两类数据分类问题，不能直接用于多类数据分类问题。相关向量机RVM是Tipping于2001年在贝叶斯框架的基础上提出的，它与SVM一样，通过核函数映射将低维空间的非线性问题转化为高维空间的线性问题。与SVM相比，RVM不需要估计正则化参数，核函数也不需要满足Mercer条件，需要更少的相关向量，训练时间长，测试时间短。对于Logistic模型和Probit模型的RVM两类数据分类方法，可以很容易的推广到多类数据分类上。

目前，多类数据分类方法主要有以下几种：

一、SVM多类数据分类方法。这种方法大致可以分为两大类：一是通过某种方式构造一系列的两类数据分类器，并将它们组合在一起来实现多类数据分类，这类SVM多类数据分类方法包括一对多算法和一对一算法；二是将多个分类面的参数求解合并到一个最优化问题中，通过求解最优化问题“一次性”地实现多类数据分类，这类方法主要有二次规划算法。其中：

一对多算法，依次用一个两类SVM分类器将每一类数据与其它所有类数据区分开，得到K个分类函数，分类时将未知数据分类为具有最大分类函数值的那一类。这种方法的好处是每个优化问题的规模都很小，而且分类时速度比较快，但会有分类重叠或不可分类现象，造成数据集的偏斜。

一对一算法，是在每两类数据间训练一个两类SVM分类器，对于一个K类问题，将有K(K-1)/2个分类函数，当对一个未知样本进行分类时，每个分类器都对其类别进行判断，并为相应的类别“投上一票”，最后得票最多的类别即作为该未知样本的类别。虽然分类器的数目多了，但在算出这些分类器的分类平面时，所用的总时间却比一对多方法少，但又存在分类重叠现象。

二次规划算法，是在训练时将K个分类面的参数求解合并到一个最优化问题中，通过二次规划方法求解最优化问题所需的参数，在测试时采用与一对多算法相同的判决方法，即对于某个输入样本，其分类结果为各子分类器输出值最大的那个类别，此算法不适合对类别数多的数据分类。

二、基于Logistic模型的多类数据分类方法。该方法是一种基于多元Logistic Regression模型的多类表述，如文献“Sparse Multinomial Logistic Regression：Fast Algorithms and Generalization Bounds，IEEE Trans.on Pattern Analysis and Machine Intelligence，Vol.27，2005.”。该文献通过边界优化方法与按分量逐个迭代的结合，实现对大样本数及高特征维数据的稀疏多类数据分类。此方法假设具有稀疏化特性的拉普拉斯先验信息，在最大后验准则下构造分类器，存在近似计算的不足。

发明内容

本发明的目的在于克服上述已有多类数据分类技术的缺点，提出一种基于相关向量机的多类数据分类方法，以减小近似计算量，避免分类重叠，实现对类别数多的数据分类。

实现本发明目的的技术方案是以多元Probit为模型，利用变分贝叶斯方法进行最优化问题的求解，通过一次性的求解出分类所需参数，而无需构造多个两类分类器进行组合分类，避免分类重叠现象，适用类别数多的数据分类；同时通过假设参数的先验分布为共轭先验分布，使后验分布与先验分布具有相同的形式，从而很方便的写出参数的后验分布，进行后验参数的求解，以减小近似计算。具体步骤包括如下：

(1)将多类数据集划分成交叉验证数据集V、训练数据集R和测试数据集T，并对其进行归一化预处理，使数据的不同特征在同一尺度上；

(2)确定相关向量机的核函数类型，根据归一化预处理后的交叉验证数据集V′确定该相关向量机的核参数；

(3)基本参数设置；

(3a)设置相关向量机的迭代次数L＝100、迭代数l₀＝0、收敛阈值σ＝10^-6；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110199365.8/2.html，转载请声明来源钻瓜专利网。

上一篇：可调机床台尾及其安装方法
下一篇：一种具有安神补血保健功能的益智方便面及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于相关向量机的多类数据分类方法无效

专利文献下载