[发明专利]一种基于Hadoop的并行化SVM求解方法有效

申请号：	201210072523.8	申请日：	2012-03-19
公开（公告）号：	CN102750309A	公开（公告）日：	2012-10-24
发明（设计）人：	高阳;罗爱宝;商琳;杨育彬	申请（专利权）人：	南京大学;南京大学江阴信息技术研究院
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	夏雪
地址：	210046 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 hadoop 并行 svm 求解方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于Hadoop的并行化SVM求解方法。

背景技术

Pegasos是目前近似求解支持向量机(SVM)中二次规划问题的最快的方法。但是，在面临海量数据的时候，单个机器内存成为了瓶颈，几乎无法完成求解。

MapReduce是近几年Google提出的并行化编程模型。它是一种函数式的编程接口，即使对于没有并行或分布式编程经验的人，也是易于使用的。在企业界有着很多的应用场景。

Hadoop是Apache对MapReduce的一种开源实现。因为开源，因而受到很多公司和研究机构的青睐。

目前，数据的爆炸性增长，研究并行化的求解方法已经迫在眉睫。Pegasos直接去处理海量数据，会可能出现如下状况：程序因内存不足而崩溃；系统调用缓存技术，在内存和硬盘之间的数据读写会使得程序的运行极其缓慢。开源社区Mahout项目中对SVM的并行化有一定进展，但苦于其并行化思路需要的通信开销和并行开销占很高比例，运行时间很长，故而出于Open阶段。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明借鉴并行化随机梯度下降的思想，提供一种基于Hadoop平台的海量数据并行化SVM求解方法。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种基于Hadoop平台的海量数据并行化SVM求解方法，包括如下步骤：

(1)将数据存储于分布式的集群文件系统中；

(2)根据数据的分布状况，在各个数据块上执行随机抽样过程，并将随机抽取的样本数据一一分配并形成若干的数据子集；

(3)在所述数据子集上进行局部第一方法；

(4)将各个数据子集上进行局部第一方法的结果进行取平均的融合，输出平均结果。

所述第一方法可以是Pegasos方法。

有益效果：本发明能够在不损失精度的情况下处理海量数据下的Pegasos求解，大大缩短运行时间，并且能够有好的拓展性。

附图说明

图1为本发明的Hadoop MapRuduce架构示意图；

图2为本发明所使用的MapRuduce执行框架机制示意图；