[发明专利]SVM分类器训练样本获取方法、训练方法及其系统在审
| 申请号: | 201310269484.5 | 申请日: | 2013-06-28 |
| 公开(公告)号: | CN104252627A | 公开(公告)日: | 2014-12-31 |
| 发明(设计)人: | 苗广艺;路香菊;单霆 | 申请(专利权)人: | 广州华多网络科技有限公司 |
| 主分类号: | G06K9/66 | 分类号: | G06K9/66 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王茹;陈玉琼 |
| 地址: | 510655 广东省广州市天*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | svm 分类 训练 样本 获取 方法 及其 系统 | ||
技术领域
本发明涉及SVM分类器的技术领域,特别是涉及一种SVM分类器训练样本获取方法及其系统,以及一种SVM分类器训练方法及其系统。
背景技术
SVM(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
SVM是建立在统计学习理论的VC维(vapnik-chervonenkis dimension)理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。
在处理两类分类问题中,SVM是一种常用的方法,因为其易用性,SVM已经被应用到很多实际工程中,例如:物体检测、人脸识别等。在使用SVM处理两类分类问题时,首先要对SVM进行训练。
同时,在实际的工业化应用中,SVM面临很多问题,有很多需要优化的地方,其中样本的选择和分类器的自动训练问题是最主要的问题。
目前对于SVM分类器的使用,普遍的训练方法,第一种是预先人工好一定数量的训练正样本和训练负样本。然而该方法过分依赖人工,无法自动化操作。对于工业化需要有很多SVM分类器的场合,该方法需要花费巨大的人力成本,甚至无法完成。
第二种方法是当样本数量达到一定程度的时候,使用全部的样本自动重新训练SVM分类器。
然而,该方法训练出来的SVM分类器占用空间大。因为训练正负样本的数量越来越大,样本空间的复杂性也增加很大,训练出来的SVM分类器需要数量庞大的支持向量,导致分类器所占用的空间增加明显,并且每次识别需要的时间也明显增加。并且,使用上述方法训练的SVM分类器,容易受到噪声样本的影像。在工业化应用场合,样本中经常会出现噪声样本,这些噪声样本对于分类器的效果影响很大。例如,一个人物的人脸数据中,训练正样本中存在其他人物的人脸,会导致训练出来的人脸分类器效果下降,容易引起其他人物的误检。如果使用全部的样本作为训练样本训练分类器,必然会受到噪声样本的影响。
发明内容
针对上述背景技术中存在的分类器的样本空间的复杂性较大,容易受到噪声样本的影响的问题,本发明的目的在于提供一种SVM分类器训练样本获取方法及其系统,能够降低分类器样本空间的复杂性,并且减少噪声样本对分类器训练的影响。
一种SVM分类器训练样本获取方法,包括以下步骤:
计算获取SVM分类器的各个样本相互之间的距离;
将各个所述样本的距离与第一距离阈值比较,对所述样本进行第一次聚类,获取至少一个第一分类,以及各个所述第一分类包含的样本;
将各个所述样本的距离与第二距离阈值比较,对所述样本进行第二次聚类,获取至少一个第二分类,以及各个所述第二分类包含的样本;其中,所述第二距离阈值大于所述第一距离阈值;
当一个所述第二分类只包含一个样本,则将该样本划分为孤立样本;
分别在各个所述第一分类中选取一个样本作为代表样本,根据所述代表样本和所述孤立样本设置所述SVM分类器的训练样本。
一种SVM分类器训练样本获取系统,包括:
距离计算模块,用于计算获取SVM分类器的各个样本相互之间的距离;
第一聚类模块,用于将各个所述样本的距离与第一距离阈值比较,对所述样本进行第一次聚类,获取至少一个第一分类,以及各个所述第一分类包含的样本;
第二聚类模块,用于将各个所述样本的距离与第二距离阈值比较,对所述样本进行第二次聚类,获取至少一个第二分类,以及各个所述第二分类包含的样本;其中,所述第二距离阈值大于所述第一距离阈值;
孤立样本模块,用于当一个所述第二分类只包含一个样本,则将该样本划分为孤立样本;
训练样本设置模块,用于分别在各个所述第一分类中选取一个样本作为代表样本,根据所述代表样本和所述孤立样本设置所述SVM分类器的训练样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310269484.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种家电组操作方法及装置
- 下一篇:一种圆盘式石蜡造粒装置





