[发明专利]一种提高大数据处理质量的方法在审
| 申请号: | 201611232063.5 | 申请日: | 2016-12-28 |
| 公开(公告)号: | CN106649203A | 公开(公告)日: | 2017-05-10 |
| 发明(设计)人: | 袁烨 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F17/16 | 分类号: | G06F17/16 |
| 代理公司: | 武汉东喻专利代理事务所(普通合伙)42224 | 代理人: | 方可 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 提高 数据处理 质量 方法 | ||
1.一种提高大数据处理质量的方法,其特征在于,包括如下步骤:
(1)根据收集到的数据特性,对要优化数据进行分析:如果数据处理问题是否是求解函数的最小值优化问题:是则转步骤(2);否则,通过对数据的正则化处理,转化为求解最小值优化问题,转步骤(2);
(2)建立最小值优化模型其中Rn为实数域的n维向量,f(X)为目标函数,是一个二次连续可微的非线性函数,X为n维向量;
(3)选取梯度类优化方法,所述方法包括梯度下降法、牛顿法和L-BFGS方法;具体根据选取的优化方法,引入Powerball函数,建立Powerball迭代公式,进行迭代;所述Powerball函数表达式σγ(z)=sign(z)|z|γ,γ∈(0,1)为Power系数,z∈R;
对于梯度下降法,对应的Powerball迭代公式为:
对于牛顿法,对应的Powerball迭代公式为:
X(k+1)=X(k)-(▽2f(X(k)))-1σγ(▽f(X(k)));
对于L-BFGS方法,对应的Powerball迭代公式为:
其中,是目标函数的Hesse矩阵的逼近矩阵,与Hesse矩阵有相同的维数;Sk=X(k+1)-X(k),是与X(k)有相同的维数的向量;X(k+1)=X(k)+αkdk,Yk=▽f(X(k+1))-▽f(X(k)),即
式中,▽f(X)为目标函数f(X)的梯度;▽2f(X)为目标函数f(X)的Hesse矩阵;k是迭代次数,取值为0,1,2,……,αk为第k次迭代时的步长,X(k) 为第k次迭代得到的逼近值;当k=0时,Bk初值取为单位矩阵,X(k)的初值X(0)可任意选取;σγ(·):R→R为Powerball函数σγ对目标函数梯度的非线性变换即Powerball变换;
(4)判断收敛性,具体判断方法如下:
当目标函数是强凸函数,且其梯度满足L-Lipschitz条件时,则判别迭代次数是否大于N;是则迭代结束,输出最优值X(k+1);否则继续迭代;
当目标函数不是强凸函数,或其梯度不满足L-Lipschitz条件时,则判断||X(k+1)-X(k)||<ε是否成立,是则迭代结束,输出最优值X(k+1);否则继续迭代;ε为误差精度,根据精度要求和计算量权衡;
其中,N为预设的迭代次数上限。
2.根据权利要求1所述提高大数据处理质量的方法,其特征在于,所述步骤(4)中的L-Lipschitz条件为:
对任意X,Y∈Rn,函数f(X)满足下式:
||▽f(Y)-▽f(X)||≤L||Y-X||;||·||表示向量的任意范数,L>0为Lipschitz常数,选取为目标函数梯度的范数的一个上界;
所述强凸函数是指函数f(X)对任意X∈Rn,
是凸函数;
上式中,||·||2则表示取2-范数;为向量X二范数的平方,m为大于零的常数。
3.根据权利要求2所述提高大数据处理质量的方法,其特征在于,所述步骤(4)中,可以最少的迭代次数得到最优值X(k);其中为Lyapunov函数。
4.根据权利要求1所述提高大数据处理质量的方法,其特征在于,所述步骤(3)中,所述Power系数γ∈(0,1)取值大小,根据误差精度ε确定;误差精度ε越大,γ的取值越小,算法的收敛速度越快。
5.根据权利要求1所述提高大数据处理质量的方法,其特征在于,所述γ根据迭代次数自适应方式选择:
其中γ0,γ1分别为γ的初值和终值,优化值取γ0=0.1,γ1=0.9,N为迭代次数上限。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611232063.5/1.html,转载请声明来源钻瓜专利网。





