[发明专利]一种基于Spark框架的支持向量机训练方法有效
申请号: | 201711269096.1 | 申请日: | 2017-12-05 |
公开(公告)号: | CN108121998B | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 许千帆;王宇;陈玫 | 申请(专利权)人: | 北京寄云鼎城科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100086 北京市海淀区东北旺*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 框架 支持 向量 训练 方法 | ||
本发明提供一种基于Spark框架的支持向量机训练方法,包括:获取训练样本集,将训练样本集中的所有样本向量分布式储存在Spark框架的数据节点中;从训练样本集中抽取违反KKT条件最大的样本向量V2,同时选取与样本向量V2的球心距相差最大的样本向量V1;对样本向量V1和V2进行迭代优化计算,获得更新后的样本向量V1new和V2new;将样本向量V1new和V2new广播到Spark的数据节点中,在每个数据节点中计算样本向量V1和V2产生的差分,从而计算获得更新后的球心;然后更新数据节点中各个样本向量的球心距和球半径。本发明提供的方法,通过应用Spark分布式计算框架将单机计算密集工作分散到各个工作节点,当数据增加时,可以进行横向扩展,存储空间不受单机限制。
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种基于Spark框架的支持向量机训练方法。
背景技术
支持向量机(Support Vector Machine,SVM)自出现以来,被大量地运用于信息安全、图像处理、模式识别,故障诊断、异常检测等领域。1999年,Tax,Scholkopf和Duin等人,提出2种One Class SVM算法,分别是基于超平面和基于超球体的One Class SVM。其中支持向量数据描述(support vector data description,SVDD)是用超球体进单类分类方法,其目标在于用训练数据来描述一个超球体作为分类的判别模型。
目前的常用的SVM模式识别与回归的软件包是python的scikit-learn和台湾林智仁教授的LIBSVM。其中,Scikit-Learn是基于python的机器学习模块,基于BSD开源许可证,这个项目最早由David Cournapeau在2007年发起的,目前也是由社区自愿者进行维护;LIBSVM是台湾大学林智仁教授等人开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,它不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验的功能。该软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题。
但随着数据量的指数级的增长,单机版内存和CPU的要求已经无法满足需求,对算法并行化的求解方法的需求越来越迫切。SMO算法求解支持向量数据描述(support vectordata description,SVDD)需要计算多个二次规划问题而具有较高的运算复杂度,SVDD运行时间会随训练样本数量增加而急剧增大。存储核矩阵Kii所需要的内存是随着训练集中训练点数N的快速增长的,核矩阵的规模是样本数平方关系,直接将SVDD应用于数据异常检测会导致计算量过大和内存溢出问题。
发明内容
为解决现有技术中,SMO算法求解SVDD需要计算多个二次规划问题而具有较高的运算复杂度,SVDD运行时间会随训练样本数量增加而急剧增大。直接将SVDD应用于数据异常检测会导致计算量过大和内存溢出问题,提出一种基于Spark框架的支持向量机训练方法。
本发明提供的方法包括:
S1,获取训练样本集,将所述训练样本集中的所有样本向量分布式储存在Spark框架的数据节点中;
S2,从所述训练样本集中抽取违反KKT条件最大的样本向量V2,同时选取与样本向量V2的球心距相差最大的样本向量V1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京寄云鼎城科技有限公司,未经北京寄云鼎城科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711269096.1/2.html,转载请声明来源钻瓜专利网。