[发明专利]一种基于Spark下并行超网络的分类方法有效
申请号: | 201611115832.3 | 申请日: | 2016-12-07 |
公开(公告)号: | CN106777006B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 王进;赵蕊;卜亚楠;孙开伟;孟小敏;李智星;陈乔松;邓欣;胡峰;雷大江;高选人;余薇;欧阳卫华 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/35 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 廖曦 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 并行 网络 分类 方法 | ||
1.一种基于Spark下并行超网络的分类方法,其特征在于:具体包括以下步骤:
步骤S101.把文本数据部署到Spark平台上;
步骤S102.在Spark平台上对文本数据进行并行化预处理;
步骤S103.在Spark平台上,对超网络算法的演化学习进行并行化实现;
所述步骤S102具体为:
先将原始数据通过缺失数据处理、然后进行离散化处理或计算超边阈值ζ;
超边阈值匹配为超边与文本数据的距离小于ζ*d′,其中d′为超边的维度,超边阈值ζ的计算公式如公式(1)所示;
其中对于文本数据x来说,Gx表示文本数据x近邻的集合,d代表训练样本维度,x’表示文本数据x的近邻样本;
步骤S103具体包括以下子步骤:
S1031.对训练集中每条文本数据生成p条超边,k条数据的超边构成N条超边库,并初始化每条超边的权值向量wj=1(j=1,2,…,N),形成对应的超边权重向量矩阵W={w1,w2,…,wN};
S1032.把训练集中每一条文本数据与超边进行匹配,根据匹配原则形成一个k*N的稀疏矩阵A;
S1033.利用稀疏矩阵A进行并行化随机梯度下降演化学习,将超网络并行梯度下降演化学习转化为矩阵并行运算,并行化实现是指:进行HDFS读入文本数据以后,并行化生成超边库和匹配矩阵;
S1034.用演化学习后的超网络对文本数据进行分类。
2.根据权利要求1所述的基于Spark下并行超网络的分类方法,其特征在于:并行化实现具体包括以下子步骤:
S1041.读取预处理后的文本数据,生成具有p个partition的弹性分布式数据集RDD_1;
S1042.对RDD_1的每一个partition中的文本数据并行生成超边集合库,超边集合库放入含有相同数量partition的RRD_2,并用RDD1.persist()方法缓存数据集,生成RDD_3;
S1043.通过RDD_3.cartesion(RDD_2)方法笛卡尔积生成RDD_4,其中每一个键值对为(k,e),其中k为样本,e为超边;
S1044.通过RDD_4.reduce()方法合并匹配结果为RDD_5,其中每个k-value值的组成为(ki,((e1,y1),(e2,y2),…,(eN,yN))),其中ki表示键值对的k,其值为第i条文本数据,键值对的value值存储该条文本数据对于其他全部超边的匹配结果,e1表示第1条超边,y1表示根据匹配原则的匹配结果;
S1045.对RDD_5中的数据进行map操作,形成匹配矩阵存储在RDD_6中。
3.根据权利要求2所述的基于Spark下并行超网络的分类方法,其特征在于:在并行梯度下降演化学习过程中,由于存在部分超边未能与文本数据匹配,超网络模型认为这部分超边对当前的分类不产生影响,因而其权重不发生改变,仅仅对样本匹配的超边的权重向量进行更新,根据更新公式(2)进行并行化调优,具体步骤为:
S1051.把初始化权重根据broadcast()方法,广播给匹配的矩阵;
S1052.根据compute()方法计算RDD_6中每个partition梯度,并通过reduce()方法合并梯度值;
S1053.根据update()方法更新超边权重向量的权重向量矩阵W的权重值;
S1054.根据iterator()方法进行重复步骤S1051-S1053,进行迭代更新权重向量;
其中,梯度计算方法为:
其中,
η表示学习速率,J(w)表示目标函数,si表示预测概率值,yi表示真实标签值,mi表示i样本对于超网络的中间预测结果,cij表示匹配矩阵中第i行第j列的值,E表示超边条数;wj表示超边j的权重向量。
4.根据权利要求3所述的基于Spark下并行超网络的分类方法,其特征在于:用演化学习后的超网络对文本数据进行分类是指对每一个测试文本数据按照公式(3)与公式(4)计算si的值,并按照公式(6)进行预测标签yt*;
其中,C为匹配矩阵,
目标函数J(w)是指:
其中,yi为真实标签值,si为预测概率值;
m表示超网络的中间预测向量,w表示超边权重向量,n表示训练集的样本个数,sn表示超网络对第n条样本的预测概率值,st表示向量s的第t个值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611115832.3/1.html,转载请声明来源钻瓜专利网。