[发明专利]模型训练方法、装置、设备、存储介质以及程序产品有效
申请号: | 202110366052.0 | 申请日: | 2021-04-06 |
公开(公告)号: | CN112884086B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 吴志华;于佃海;梁建中;李龙;巩伟宝;王曦 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G06T1/20 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 设备 存储 介质 以及 程序 产品 | ||
1.一种模型训练方法,应用于电子设备的处理器,包括:
获取训练样本集;
从预设的并行策略集合中开启至少一个并行策略的开关,其中,所述并行策略集合中的每个并行策略对应设置有开关;
利用所述至少一个并行策略,基于所述训练样本集对初始模型进行训练,直至所述初始模型训练完成;
其中,所述至少一个并行策略包括分片数据并行策略;以及,
所述利用所述至少一个并行策略,基于所述训练样本集对所述初始模型进行训练,包括:
按照数据并行度将第一设备分组,得到多个第一设备组;
对于每个第一设备组,按照分片度将所述初始模型的参数切分,所述初始模型的参数被等分为多个子参数以及将切分出的多个子参数一一对应存储在所述第一设备组中的多个图形处理器GPU上,其中,所述数据并行度与所述分片度的乘积等于GPU的总数,所述子参数包括至少一个网络层的参数;
在训练过程中,在所述第一设备组的组间数据并行,以及在所述第一设备组的组内的GPU间广播参数。
2.根据权利要求1所述的方法,其中,所述并行策略集合包括以下至少一项:数据并行策略、流水线并行策略和模型并行策略。
3.根据权利要求2所述的方法,其中,所述至少一个并行策略包括所述流水线并行策略;以及
所述利用所述至少一个并行策略,基于所述训练样本集对所述初始模型进行训练,包括:
按照网络层粒度将所述初始模型切分,以及将切分出的多个网络层对应存储在多个第二设备上,其中,一个第二设备存储至少一个网络层;
基于所述训练样本集,对所述多个第二设备上的网络层进行训练。
4.根据权利要求3所述的方法,其中,所述基于所述训练样本集,对所述多个第二设备上的多个网络层进行训练,包括:
在前向计算过程中,将所述训练样本集经过所述多个第二设备上的网络层进行处理,得到前向计算结果;
在反向传播过程中,将所述前向计算结果对应的误差经过所述多个第二设备上的网络层进行处理,得到梯度更新参数;
基于所述梯度更新参数,对所述多个第二设备上的网络层的参数进行更新。
5.根据权利要求4所述的方法,其中,在训练之前,将所述训练样本集切分成多个批训练样本,在训练过程中,一个批训练样本进行一次参数更新。
6.根据权利要求5所述的方法,其中,在训练过程中,采用一个前向一个后向调度所述多个批训练样本。
7.根据权利要求2-6之一所述的方法,其中,所述至少一个并行策略包括所述模型并行策略;以及
所述利用所述至少一个并行策略,基于所述训练样本集对所述初始模型进行训练,包括:
对于所述初始模型的每个网络层,按照算子粒度将所述网络层切分,以及将切分出的多个子网络层一一对应存储在多个第三设备上;
基于所述训练样本集,对所述多个第三设备上的子网络层进行训练。
8.根据权利要求2-6之一所述的方法,其中,所述至少一个并行策略包括所述数据并行策略;以及
所述利用所述至少一个并行策略,基于所述训练样本集对所述初始模型进行训练,包括:
将所述初始模型分别部署在多个第四设备上;
按照设备粒度将所述训练样本集切分,以及将切分出的多个训练样本子集一一对应输入所述多个第四设备上的初始模型进行计算;
合并计算结果,以及对所述多个第四设备上的初始模型的参数进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110366052.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种直流充电桩及充电站
- 下一篇:成筒压轮装置