[发明专利]一种基于Spark框架的支持向量机训练方法有效

专利信息
申请号: 201711269096.1 申请日: 2017-12-05
公开(公告)号: CN108121998B 公开(公告)日: 2020-09-25
发明(设计)人: 许千帆;王宇;陈玫 申请(专利权)人: 北京寄云鼎城科技有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06K9/00
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王莹;吴欢燕
地址: 100086 北京市海淀区东北旺*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 spark 框架 支持 向量 训练 方法
【说明书】:

发明提供一种基于Spark框架的支持向量机训练方法,包括:获取训练样本集,将训练样本集中的所有样本向量分布式储存在Spark框架的数据节点中;从训练样本集中抽取违反KKT条件最大的样本向量V2,同时选取与样本向量V2的球心距相差最大的样本向量V1;对样本向量V1和V2进行迭代优化计算,获得更新后的样本向量V1new和V2new;将样本向量V1new和V2new广播到Spark的数据节点中,在每个数据节点中计算样本向量V1和V2产生的差分,从而计算获得更新后的球心;然后更新数据节点中各个样本向量的球心距和球半径。本发明提供的方法,通过应用Spark分布式计算框架将单机计算密集工作分散到各个工作节点,当数据增加时,可以进行横向扩展,存储空间不受单机限制。

技术领域

本发明涉及计算机技术领域,更具体地,涉及一种基于Spark框架的支持向量机训练方法。

背景技术

支持向量机(Support Vector Machine,SVM)自出现以来,被大量地运用于信息安全、图像处理、模式识别,故障诊断、异常检测等领域。1999年,Tax,Scholkopf和Duin等人,提出2种One Class SVM算法,分别是基于超平面和基于超球体的One Class SVM。其中支持向量数据描述(support vector data description,SVDD)是用超球体进单类分类方法,其目标在于用训练数据来描述一个超球体作为分类的判别模型。

目前的常用的SVM模式识别与回归的软件包是python的scikit-learn和台湾林智仁教授的LIBSVM。其中,Scikit-Learn是基于python的机器学习模块,基于BSD开源许可证,这个项目最早由David Cournapeau在2007年发起的,目前也是由社区自愿者进行维护;LIBSVM是台湾大学林智仁教授等人开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,它不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验的功能。该软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题。

但随着数据量的指数级的增长,单机版内存和CPU的要求已经无法满足需求,对算法并行化的求解方法的需求越来越迫切。SMO算法求解支持向量数据描述(support vectordata description,SVDD)需要计算多个二次规划问题而具有较高的运算复杂度,SVDD运行时间会随训练样本数量增加而急剧增大。存储核矩阵Kii所需要的内存是随着训练集中训练点数N的快速增长的,核矩阵的规模是样本数平方关系,直接将SVDD应用于数据异常检测会导致计算量过大和内存溢出问题。

发明内容

为解决现有技术中,SMO算法求解SVDD需要计算多个二次规划问题而具有较高的运算复杂度,SVDD运行时间会随训练样本数量增加而急剧增大。直接将SVDD应用于数据异常检测会导致计算量过大和内存溢出问题,提出一种基于Spark框架的支持向量机训练方法。

本发明提供的方法包括:

S1,获取训练样本集,将所述训练样本集中的所有样本向量分布式储存在Spark框架的数据节点中;

S2,从所述训练样本集中抽取违反KKT条件最大的样本向量V2,同时选取与样本向量V2的球心距相差最大的样本向量V1

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京寄云鼎城科技有限公司,未经北京寄云鼎城科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711269096.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top