[发明专利]一种基于Spark的极限学习机并行化计算方法有效
申请号: | 201611110439.5 | 申请日: | 2016-12-06 |
公开(公告)号: | CN106502964B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 刘鹏;王学奎;叶帅;赵慧含;仰彦妍;尹良飞;张国鹏;丁恩杰 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06F17/16 | 分类号: | G06F17/16 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 杨晓玲 |
地址: | 221116 江苏省徐*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种基于大数据处理平台Spark的极限学习机并行化计算方法,适用于大数据处理平台Spark机器学习领域使用。首先将样本数据集按照每个样本逐行存储于分布式文件系统,并对样本集进行预处理得到特征矩阵以及类别标签向量T;接下来,按照样本特征数以及隐节点数目随机初始化隐层节点参数:权重矩阵ω以及隐层偏差向量b;之后利用矩阵乘并行化方案求解得到隐层输出矩阵H;最后利用矩阵乘并行化方案以及矩阵单机求逆运算得到输出权重向量β的唯一最优解 |
||
搜索关键词: | 一种 基于 spark 极限 学习机 并行 计算方法 | ||
【主权项】:
1.一种基于Spark的极限学习机并行化计算方法,其特征在于包括以下步骤:a.向服务器发送原始学习数据,服务器在磁盘的分布式文件系统HDFS中读取原始学习数据,包括属性以及类别的描述及数值,将原始学习数据的属性以及类别全部解析成数值得到样本数据,将所有样本数据集存储到服务器的分布式文件系统中,每个样本存储为一行,所述存储入服务器分布式文件系统中的所有样本数据均可以被集群网络中所有连接的计算机后续共同访问;b.利用服务器对所有样本数据集进行预处理操作,将样本数据转化成属性变量矩阵P以及类别变量矩阵T;c.随机初始化隐层节点参数获得随机生成的输入权重矩阵ω以及隐层偏差向量b,完成服务器作为极限学习机的初始化步骤;d.针对属性变量矩阵P矩阵以及初始化所得的输入权重矩阵ω,利用矩阵乘并行化方案计算得到二者乘积,对所得乘积的每个元素通过激活函数映射得到隐层输出矩阵H,利用矩阵乘并行化方案以及矩阵单机求逆运算得到输出权重向量β的唯一最优解
所述矩阵乘并行化方法为:对于两个矩阵相乘后得到新矩阵C=A*B的矩阵乘运算,首先将矩阵A按行逐行存储于服务器的分布式文件系统中,将矩阵B按列逐行存储于服务器的分布式文件系统中,设矩阵A的行数为rowA,矩阵B的列数为colB,依次将矩阵A的第i行数据复制colB份,每份逐行存储并在每行前分别添加“i 0”、“i 1”……“i colB”作为后续转化所得PairRDD的key值,得到新的矩阵数据A',依次将矩阵B的第j行数据复制rowA份,每份逐行存储并在每行前分别添加“0 j”、“1 j”……“rowA j”作为后续转化所得PairRDD的key值,得到新的矩阵数据B',将矩阵数据A'和矩阵数据B'存储并添加入分布式文件系统中的存储文件,再将存储文件读入内存RDD中,通过Map to Pair操作,每个RDD的前两个元素作为key,其他元素作为value,将RDD转换成PairRDD,从而得到键值对为,“value1 value2 ……valuen”即为矩阵相应的行列向量;最后通过ReduceByKey操作,将相同key值的两个PairRDD的value进行向量内积运算得到reduce后的value值,key值为(0 0)、(0 1)……(rowA colB)所对应的value值即为所求矩阵乘积的各个元素。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611110439.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种晚熟葡萄的良种培育方法
- 下一篇:一种树木支架