[发明专利]一种模型训练方法及装置在审
| 申请号: | 202010762709.0 | 申请日: | 2020-07-31 |
| 公开(公告)号: | CN112070207A | 公开(公告)日: | 2020-12-11 |
| 发明(设计)人: | 廖亿;蒋欣;陈晓;钱莉;刘群 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 李杭 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 模型 训练 方法 装置 | ||
1.一种模型训练方法,其特征在于,所述方法包括:
向第一设备发送第一子模型;其中,所述第一子模型为对待训练模型进行压缩得到的;
接收所述第一设备发送的第一梯度,所述第一梯度为所述第一设备训练所述第一子模型时得到的;
至少基于所述第一梯度,对所述待训练模型进行模型训练,以得到更新后的待训练模型。
2.根据权利要求1所述的方法,其特征在于,存储所述第一子模型所需的存储资源小于存储所述待训练模型所需的存储资源。
3.根据权利要求1或2所述的方法,其特征在于,运行所述第一子模型时所需的计算资源小于运行所述待训练模型时所需的计算资源。
4.根据权利要求3所述的方法,其特征在于,所述计算资源至少包括如下的一种:内存资源、显存资源或CPU资源。
5.根据权利要求1至4任一所述的方法,其特征在于,所述第一子模型为对待训练模型进行如下至少一种处理方式得到的:剪枝、知识蒸馏或量化。
6.根据权利要求1至5任一所述的方法,其特征在于,所述至少基于所述第一梯度,对所述待训练模型进行模型训练,包括:
基于所述第一梯度,对所述第一子模型进行训练,得到更新后的第一子模型;
至少以所述更新后的第一子模型作为老师模型,所述待训练模型为学生模型,对所述待训练模型进行知识蒸馏,以得到更新后的待训练模型。
7.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:
获取所述第一设备的数据处理能力,所述数据处理能力包括以下至少一种:可使用的存储资源或可使用的计算资源;
基于第一映射关系,获取所述第一设备对应的第一子模型;其中,所述第一映射关系包括数据处理能力与子模型之间的对应关系,且在所述第一映射关系中,所述第一设备的数据处理能力对应于所述第一子模型。
8.根据权利要求1至7任一所述的方法,其特征在于,所述方法还包括:
向第二设备发送第二子模型;其中,所述第二子模型为对待训练模型进行压缩得到的,且所述第二子模型与所述第一子模型不同;
接收所述第二设备发送的第二梯度,所述第二梯度为所述第二设备训练所述第二子模型时得到的;
所述至少基于所述第一梯度,对所述待训练模型进行模型训练,包括:
基于所述第一梯度和所述第二梯度,对所述待训练模型进行模型训练,以得到更新后的待训练模型。
9.根据权利要求8所述的方法,其特征在于,所述第一设备与所述第二设备的数据处理能力不同,所述数据处理能力包括以下至少一种:可使用的存储资源或可使用的计算资源。
10.根据权利要求8或9所述的方法,其特征在于,存储所述第一子模型和所述第二子模型所需的存储资源大小不同。
11.根据权利要求8至10任一所述的方法,其特征在于,运行所述第一子模型和所述第二子模型时所需的计算资源大小不同。
12.根据权利要求8至11任一所述的方法,其特征在于,所述第二子模型为对待训练模型进行如下至少一种处理方式得到的:剪枝、知识蒸馏或量化。
13.根据权利要求8至12任一所述的方法,其特征在于,所述基于所述第一梯度和所述第二梯度,对所述待训练模型进行模型训练,包括:
基于所述第一梯度,对所述第一子模型进行训练,得到更新后的第一子模型;
基于所述第二梯度,对所述第二子模型进行训练,得到更新后的第二子模型;
以所述更新后的第一子模型和所述更新后的第二子模型作为老师模型,所述待训练模型为学生模型,对所述待训练模型进行知识蒸馏,以得到更新后的待训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010762709.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防止继电器误吸合的控制电路
- 下一篇:车载无人机自组网增强方法





