[发明专利]具有压缩和延迟补偿的分布式随机梯度下降方法有效

申请号：	202110904974.2	申请日：	2021-08-07
公开（公告）号：	CN113627519B	公开（公告）日：	2022-09-09
发明（设计）人：	董德尊;于恩达;汪杨海;廖湘科;肖立权;徐叶茂;欧阳硕;杨维玲;王笑雨	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04
代理公司：	北京丰浩知识产权代理事务所(普通合伙) 11781	代理人：	董超
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	具有压缩延迟补偿分布式随机梯度下降方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种具有压缩和延迟补偿的分布式随机梯度下降方法，其特征在于，其利用参数服务器和计算节点来实现，计算节点负责进行梯度以及本地权重的计算，而参数服务器则用于接收并聚合来自所有的计算节点的梯度然后进行梯度更新，参数服务器与计算节点之间的数据交互采用了PS架构的一对多模式，本方法的具体步骤包括：

首先进行预热训练，其包括步骤S1、步骤S2和步骤S3；

S1，从参数服务器端取回t-1时刻全局权重W_i-1；

S2，利用t-1时刻全局权重W_i-1，在每个计算节点中计算t-1时刻的本地梯度，第j个计算节点的t-1时刻本地梯度值Grad_j,i-1的计算公式为：

Grad_j,i-1＝grad_cal(W_i-1,X_j,Y_j)，1≤j≤N (1)

其中，grad_cal为梯度计算的函数，其利用全局权重W_i-1和存放在第j个计算节点的输入的样本特征X_j来计算出预测结果Y_j’，由预测结果Y_j’和标签Y_j计算出损失值loss，再对损失值loss求导，即得到第j个计算节点的t-1时刻本地梯度值Grad_j,i-1；

S3，各个计算节点将计算得到的本地梯度值推送到参数服务器，并利用计算得到的本地梯度值对t-1时刻全局权重W_i-1进行更新，得到t时刻的全局权重W_i：

其中η是超参数学习率，N为计算节点个数；

预热训练阶段对步骤S1到S3重复若干次数；

预热训练结束后，进行过渡训练，其包括步骤S4和步骤S5；

S4，对从参数服务器端取回的t时刻全局权重W_i进行备份，将其保存到备份权重变量loc_weight中，则t时刻各个计算节点的本地权重W_i^loc均等于t时刻全局权重W_i，也等于备份权重loc_weight；在每个计算节点中，计算每个计算节点的t时刻本地梯度,第j个计算节点的t时刻本地梯度值Grad_j,i的计算表达式为：

Grad_j,i＝grad_cal(W_i,X_j,Y_j)，1≤j≤N (3)

S5,在各个计算节点，利用计算得到的t时刻本地梯度Grad_j,i来对W_i更新，产生t+1时刻的本地权重W_i+1^loc：

在对本地权重W_i+1^loc进行计算的同时，各个计算节点把计算得到的t时刻的本地梯度上传到参数服务器，并利用计算得到的t时刻的本地梯度值对t时刻全局权重W_i进行更新，得到t+1时刻的全局权重W_i+1：

将得到的t+1时刻的全局权重W_i+1备份到权重变量loc_weight中；

过渡训练结束后，进行正式训练，其包括步骤S6、步骤S7和步骤S8；

S6,在得到本地权重W_i+1^loc之后，各个计算节点立即开始计算t+1时刻的本地梯度Grad_j,i+1：

Grad_j,i+1＝grad_cal(W_i+1^loc,X_j,Y_j)， (6)

S7,各个计算节点计算得到t+1时刻的本地梯度之后，将t+1时刻本地梯度Grad_j,i+1的2比特格式数据存放在变量Sgrad_j中，与此同时，利用t+1时刻本地梯度Grad_j,i+1来对t+1时刻全局权重W_i+1进行更新，得到t+2时刻的本地权重W_i+2^loc：

S8,各个计算节点将变量Sgrad_j的数据推送到参数服务器，由参数服务器计算t+2时刻全局权重W_i+2，并将其备份到权重变量loc_weight，t+2时刻全局权重W_i+2的计算公式为：

与此同时，在得到t+2时刻的本地权重W_i+2^loc之后，利用公式(6)，用W_i+2^loc计算t+2时刻各个计算节点的本地梯度Grad_j,i+2，1≤j≤N；

正式训练结束后，进行补偿训练，其包括步骤S9；

S9，在每进行k次全局权重计算的过程中，前k-1次采用正式训练的模式，每进行k次迭代时，进行一次补偿计算，补偿计算是用某一时刻的本地梯度Grad_j取代变量Sgrad_j后，再利用公式(8)计算全局权重；

在完成由预热训练向正式训练过渡之后，即反复重复步骤S7、S8和S9的操作，直到执行完毕使用者指定的训练Epoch数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110904974.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种CD177作为检测急性心肌梗死的生物标志物的用途
下一篇：一种采集旋转轴能量的压电-电磁复合式发电装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]具有压缩和延迟补偿的分布式随机梯度下降方法有效

专利文献下载