[发明专利]显存管理、模型训练方法、装置、电子设备及存储介质在审
| 申请号: | 202110150321.X | 申请日: | 2021-02-03 |
| 公开(公告)号: | CN112882830A | 公开(公告)日: | 2021-06-01 |
| 发明(设计)人: | 邓哲也;章玄润;高华佐 | 申请(专利权)人: | 北京迈格威科技有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/08;G06T1/20;G06T1/60 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 王婷婷 |
| 地址: | 100086 北京市海淀区科*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 显存 管理 模型 训练 方法 装置 电子设备 存储 介质 | ||
1.一种显存管理方法,应用于电子设备,其特征在于,所述方法包括:
获取模型的当前轮训练对应的显存阈值;
在所述电子设备的显存占用值大于所述显存阈值的情况下,确定满足张量选择规则的目标张量;
释放所述目标张量占用的显存。
2.根据权利要求1所述的方法,其特征在于,所述确定满足张量选择规则的目标张量,包括:
根据目标估值函数,计算所述显存中的张量对应的估值函数值;
将估值函数值最大的张量确定为所述目标张量。
3.根据权利要求2所述的方法,其特征在于,所述根据目标估值函数,计算所述显存中的张量对应的估值函数值,包括:
根据目标估值函数,计算所述显存中未上锁的张量对应的估值函数值;
所述将估值函数值最大的张量确定为所述目标张量,包括:
将未上锁的且估值函数值最大的张量,确定为所述目标张量。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
根据张量占用的显存大小、张量占用显存的时长、张量的计算代价和张量的重计算次数中的至少两个或多个,确定所述目标估值函数。
5.根据权利要求4所述的方法,其特征在于,所述目标估值函数为:
其中,t为张量,M(t)为t占用的显存大小,L(t)为t占用显存的时长,C(t)为t的计算代价,R(t)为t的重计算次数,α、β、γ和δ为所述目标估值函数的超参数。
6.根据权利要求5所述的方法,其特征在于,在所述模型的当前轮训练为第一轮训练时,所述显存阈值=显存容量/2,α=β=γ=1,δ=1/2。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
获取第N轮训练的显存占用值超过显存阈值的次数;
根据所述显存占用值超过显存阈值的次数,调整第N+1轮训练对应的显存阈值,其中,N为大于等于1的整数。
8.根据权利要求7所述的方法,其特征在于,所述根据所述显存占用值超过显存阈值的次数,调整第N+1轮训练对应的显存阈值,包括:
在所述显存占用值超过显存阈值的次数大于第一次数阈值的情况下,增大第N+1轮训练对应的显存阈值;
在所述显存占用值超过显存阈值的次数不大于所述第一次数阈值的情况下,减小第N+1轮训练对应的显存阈值。
9.根据权利要求5-8任一项所述的方法,其特征在于,所述方法还包括:
获取第N轮训练的申请空间大于显存碎片的最大值的次数和/或重新计算的时长占总训练时长的百分比;
根据所述申请空间大于显存碎片的最大值的次数和/或重新计算的时长占总训练时长的百分比,调整第N+1轮训练对应的目标估值函数中超参数的取值。
10.根据权利要求9所述的方法,其特征在于,所述根据所述申请空间大于显存碎片的最大值的次数和/或重新计算的时长占总训练时长的百分比,调整第N+1轮训练对应的目标估值函数中超参数的取值,包括以下步骤中的至少一个:
在所述申请空间大于显存碎片的最大值的次数大于第二次数阈值的情况下,增大第N+1轮训练对应的α的取值;
在所述重新计算的时长占总训练时长的百分比相较于上一轮模型训练增加的情况下,减少第N+1轮训练对应的γ的取值。
11.根据权利要求5-10任一项所述的方法,其特征在于,所述方法还包括:
计算第N轮训练的耗时参数=重新计算耗时/原本计算耗时;
基于所述耗时参数运行模拟退火算法,调整第N+1轮训练对应的显存阈值和/或所述目标估值函数中超参数的取值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京迈格威科技有限公司,未经北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110150321.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种太阳能发电站运动控制装置
- 下一篇:一种地图的显示方法和装置





