[发明专利]模型的分布式训练方法、装置和系统在审
| 申请号: | 202010018911.2 | 申请日: | 2020-01-08 |
| 公开(公告)号: | CN113094168A | 公开(公告)日: | 2021-07-09 |
| 发明(设计)人: | 蒋丰泽;李传勇;王兴达 | 申请(专利权)人: | 北京奇虎科技有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/54;G06N20/00 |
| 代理公司: | 北京恒博知识产权代理有限公司 11528 | 代理人: | 范胜祥 |
| 地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型 分布式 训练 方法 装置 系统 | ||
1.一种模型的分布式训练方法,其中,所述方法应用于对等网络的节点中,所述方法包括:
由本节点上的参数服务器角色存储模型的至少部分参数,以使所述对等网络中的全部参数服务器角色共同存储所述模型的全部参数;
在每轮训练开始时,由本节点上的工作者角色从各节点上的参数服务器角色拉取模型的最新参数,根据本轮训练的训练数据以及根据所述最新参数计算梯度更新,并在该轮训练结束后,将计算得到的梯度更新发送给各节点上的参数服务器角色。
2.如权利要求1所述的方法,其中,所述由本节点上的参数服务器角色存储模型的至少部分参数包括:
在内存中存储参数,以及在外部存储器中以检查点机制备份存储相应的参数;
该方法还包括:
在本节点中的训练进程崩溃时,利用所述外部存储器中存储的参数恢复训练进程。
3.如权利要求1所述的方法,其中,节点间的通信使用TCP协议。
4.如权利要求1所述的方法,其中,角色间的通信是基于ZeroMQ消息队列实现的。
5.一种模型的分布式训练装置,其中,所述装置应用于对等网络的节点中,所述装置包括:
参数服务器单元,适于存储模型的至少部分参数,以使所述对等网络中的全部参数服务器单元共同存储所述模型的全部参数;
工作者单元,适于在每轮训练开始时,从各节点上的参数服务器单元拉取模型的最新参数,根据本轮训练的训练数据以及根据所述最新参数计算梯度更新,并在该轮训练结束后,将计算得到的梯度更新发送给各节点上的参数服务器单元。
6.如权利要求5所述的装置,其中,
所述参数服务器单元,适于在内存中存储参数,以及在外部存储器中以检查点机制备份存储相应的参数;
该装置还包括:
容错单元,适于在本节点中的训练进程崩溃时,利用所述外部存储器中存储的参数恢复训练进程。
7.如权利要求5所述的装置,其中,节点间的通信使用TCP协议。
8.一种模型的分布式训练系统,包括:构成对等网络的多个节点,各节点中部署有如权利要求5-7中任一项所述的模型的分布式训练装置。
9.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-4中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-4中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010018911.2/1.html,转载请声明来源钻瓜专利网。





