[发明专利]自适应向量投影的非线性支持向量选取方法在审
| 申请号: | 201510180702.7 | 申请日: | 2015-04-16 |
| 公开(公告)号: | CN104750857A | 公开(公告)日: | 2015-07-01 |
| 发明(设计)人: | 郭亚琴;秦燕;王青 | 申请(专利权)人: | 南通理工学院 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 苏州华博知识产权代理有限公司 32232 | 代理人: | 魏亮芳 |
| 地址: | 226000 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自适应 向量 投影 非线性 支持 选取 方法 | ||
技术领域
本发明属于支持向量机的学习方法,具体涉及一种自适应向量投影的非线性支持向量选取方法。
背景技术
统计学习理论最早提出于20世纪60年代,它是针对小样本进行研究,20世纪90年代中期,Vapnik基于此理论提出了新的学习算法——支持向量机。近年来,支持向量机的研究获得了越来越多的关注,支持向量机已经成功应用于许多实际问题,例如人脸识别、手写体识别,文本分类等。文本分类是信息过滤、信息检索、搜索引擎、文本数据库、数字化图书管等领域的技术基础,而支持向量机是文本分类的最主要最简单的手段之一。
然而,标准支持向量机的训练速度比较慢,在实际应用中受到极大限制,通过研究发现,支持向量机在训练的时候,仅仅由位于边界的支持向量决定,因此如果能预先确定支持向量,能够极大的加快支持向量机的训练速度。目前很多相关的算法被提出,例如Chunking算法,Decomposing算法和序列最小最优化算法,这些算法获得支持向量需要多次迭代。为了加快获得支持向量的时间,研究者提出了一种改进的支持向量机BS-SVM(见参考文献1)、基于向量投影的支撑向量预选取方法(见参考文献2)。然而在实际中,由于样本分布难以预测,如何选取边界向量代替支持向量成为研究的关键。在文献2中采用类中心向量作为投影方向,但是当样本分散时,类中心并不能反映该样本的原始特征,降低分类精度。
针对样本分布不均匀和离散度大的问题,在选取支持向量时,难以确定包含原始样本特征的边界向量,从而造成分类速度低下。而随着科技的日益发展,在信息过滤、信息检索、搜索引擎、文本数据库、数字化图书管等领域,都其渴望一种更快速、分类更精确的方法来提高其信息过滤、信息检索、搜索的速率和效果。
故一种分类精度高、分类速度快的自适应向量投影的非线性支持向量选取方法亟待提出。
参考文献1:郭亚琴,王正群,一种改进的支持向量机BS-SVM[J].微电子学与计算机,2010,28(6):54-56。
参考文献2:李青,焦李成,周伟达.基于向量投影的支撑向量预选取[J].计算机学报,2005,28(2):145-151。
发明内容
为了解决上述技术问题,本发明提出了自适应向量投影的非线性支持向量选取方法,该方法相较于现有的支持向量机的方法,针对非线性不可分的数据,其分类精度更高,分类速度更快,更适用于人脸识别、手写体识别,文本分类等领域内。
为了达到上述目的,本发明的技术方案如下:
自适应向量投影的非线性支持向量选取方法,方法用于非线性数据的文本分类,包括以下步骤:
(1)将原始样本映射到高维空间转化为线性样本;
(2)计算线性样本的中心距离;
(3)将线性样本投影到线性样本的中心向量后,在一维空间内选取具有原始特征的边界样本;
(4)利用支持向量机对边界样本进行训练,得到分类结果。
本发明一种自适应向量投影的非线性支持向量选取方法,运用自适应投影方法,从原始样本中提取出包含样本特征的边界样本作为新的训练样本,在保证原始样本所有特征的同时限制边界样本数量,以提高训练速度和分类精度。
在上述技术方案的基础上,还可做如下改进:
作为优选的方案,在步骤(2)中,根据下式来得到线性样本的中心距离D,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通理工学院,未经南通理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510180702.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种虚拟仿真展品展示方法
- 下一篇:一种多维协同推荐的系统与方法





