[发明专利]一种分布式深度学习系统中具有低通信开销和高统计效率的训练模型的方法在审
| 申请号: | 202210023028.1 | 申请日: | 2022-01-10 |
| 公开(公告)号: | CN114565007A | 公开(公告)日: | 2022-05-31 |
| 发明(设计)人: | 徐辰;毕倪飞;陈梓浩;周傲英 | 申请(专利权)人: | 华东师范大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海德禾翰通律师事务所 31319 | 代理人: | 夏思秋 |
| 地址: | 200241 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分布式 深度 学习 系统 具有 通信 开销 统计 效率 训练 模型 方法 | ||
1.一种分布式深度学习系统中具有低通信开销和高统计效率的训练模型的方法,其特征在于,所述方法包括如下步骤:
步骤A:运行时数据收集器在运行时采集自适应通信间隔所需的通信时间tcm和计算时间tcp数据,自适应通信间隔选择器通过上述采集获得的通信时间和计算时间数据自动调整通信间隔τ;
步骤B:对模型进行迭代训练,在每一轮迭代中采用纠正技术更新本地模型;
步骤C:每隔τ轮迭代利用跳过通信策略更新全局模型。
2.如权利要求1所述的方法,其特征在于,所述步骤A进一步包括如下步骤:
步骤A1:系统自动将通信间隔τ初始化为1;设置通信间隔τ=1,并设置自适应通信间隔标志位flag;
步骤A2:在系统运行时,运行时数据收集器采集第一轮迭代中通信的耗时tcm和计算的耗时tcp;
步骤A3:自适应通信间隔选择器根据第一轮迭代中采集的tcm和tcp来调整通信间隔
3.如权利要求2所述的方法,其特征在于,步骤A1中,所述自适应通信间隔标志位用于指示是否启用自适应通信间隔选择器;当自适应通信间隔标志位flag=true时,自适应通信间隔选择器启用,系统自适应地选择一个合适的通信间隔τ;当自适应通信间隔标志位flag=false时,自适应通信间隔选择器禁用,用户需要指定通信间隔τ。
4.如权利要求1所述的方法,其特征在于,当第一轮迭代完成通信间隔τ的调整后,所述通信间隔τ用于后续所有迭代。
5.如权利要求1所述的方法,其特征在于,所述步骤B进一步包括如下步骤:
步骤B1:每个训练进程根据本地模型计算出梯度;
步骤B2:每个训练进程计算出纠正,所述纠正是指本地模型和全局模型之间的差值;
步骤B3:每个训练进程用计算所得的梯度和纠正来更新本地模型。
6.如权利要求5所述的方法,其特征在于,步骤B1中,所述梯度通过下述公式计算:
其中,i代表训练进程的编号,k代表迭代数,代表编号为i的训练进程在第k轮迭代中计算所得的梯度,b(i)代表编号为i的训练进程上的批量大小,代表编号为i的训练进程在第k轮迭代中的本地模型参数,L(x,w)代表样本x在模型参数w上计算所得的损失。
7.如权利要求5所述的方法,其特征在于,步骤B2中,所述纠正通过下述公式计算:
其中,i代表训练进程的编号,k代表迭代数,代表编号为i的训练进程在第k轮迭代中计算所得的纠正,代表编号为i的训练进程在第k轮迭代中的本地模型参数,代表第k轮迭代中的全局模型参数。
8.如权利要求5所述的方法,其特征在于,步骤B3中,所述本地模型的具体更新形式如下述公式所示:
其中,i代表训练进程的编号,k代表迭代数,和代表编号为i的训练进程在第k和k+1轮迭代中的本地模型参数,和分别代表编号为i的训练进程在第k轮迭代中的本地模型动量、梯度和纠正,μ、γ和α分别代表动量系数、学习率和纠正系数。
9.如权利要求8所述的方法,其特征在于,所述本地模型动量初始时为空,在每一轮迭代中根据梯度进行更新,具体的更新形式为:
其中,i代表训练进程的编号,k代表迭代数,和代表编号为i的训练进程在第k和k+1轮迭代中的本地模型动量,代表编号为i的训练进程在第k轮迭代中的梯度,μ和γ分别代表动量系数和学习率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210023028.1/1.html,转载请声明来源钻瓜专利网。





