[发明专利]模型训练方法、处理芯片以及边缘终端在审
| 申请号: | 202210073120.9 | 申请日: | 2022-01-21 |
| 公开(公告)号: | CN114595814A | 公开(公告)日: | 2022-06-07 |
| 发明(设计)人: | 陈旭;陈克林;江伟杰;吕正祥;杨军民;袁抗;梁龙飞 | 申请(专利权)人: | 上海新氦类脑智能科技有限公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06N3/063 |
| 代理公司: | 上海上谷知识产权代理有限公司 31342 | 代理人: | 蔡继清 |
| 地址: | 200090 上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型 训练 方法 处理 芯片 以及 边缘 终端 | ||
1.一种模型训练方法,其特征在于,用于对包括主路和边路的深度神经网络模型进行训练,主路包括多个子模块,每个子模块包括多层,边路包括多个边路模块,子模块与边路模块一一对应且并联,所述方法包括:
利用训练数据对深度神经网络模型的主路进行训练,得到所述深度神经网络模型主路的各层的网络参数,所述网络参数包括权重;
对所述深度神经网络模型的主路进行压缩,并保存压缩后的所述深度神经网络模型主路的各层的权重;
利用采集的样本数据对当前的所述深度神经网络模型继续训练,更新各所述边路模块的各层的网络参数并保存;其中,所述主路的各层的权重保持不变。
2.根据权利要求1所述的模型训练方法,其特征在于,每个所述边路模块包括依次连接的下采样层、特征卷积组、输出卷积层以及上采样层;
在训练过程中,所述下采样层对来源于所述主路的输入数据进行下采样,将得到的低分辨率的所述输入数据转换输入到所述特征卷积组中进行特征提取,再利用所述输出卷积层将提取的特征数据转换为与所述主路相同的维度,并利用所述上采样层将与所述主路维度相同的所述特征数据进行上采样后返回到所述主路。
3.根据权利要求2所述的模型训练方法,其特征在于,所述特征卷积组的卷积层数为1层,每个所述卷积层的卷积核的数量为16个。
4.根据权利要求1所述的模型训练方法,其特征在于,所述利用采集的样本数据对当前的所述深度神经网络模型继续训练,更新各所述边路模块的各层的网络参数并保存,包括:
选取当前的所述深度神经网络模型的多个层作为检查点;
利用采集的样本数据对当前的所述深度神经网络模型进行前向传播,得到当前的所述深度神经网络模型的输出数据,并保存各所述检查点的激活值;
利用前向传播得到的所述输出数据、各所述检查点的激活值与各所述样本数据的标注信息对当前的所述深度神经网络模型进行反向传播训练,更新各所述边路模块的各层的网络参数并保存,在反向传播训练过程中,利用各所述检查点的激活值计算所述深度神经网络模型中未作为所述检查点的各层的激活值;其中,所述主路的各层的权重保持不变。
5.根据权利要求4所述的模型训练方法,其特征在于,所述选取当前的所述深度神经网络模型的多个层作为检查点,包括:
在所述深度神经网络模型主路的每个子模块中选取一个层作为检查点。
6.根据权利要求1所述的模型训练方法,其特征在于,所述主路的每个子模块基于所述主路各层用于实现的功能或者结构进行划分。
7.根据权利要求1所述的模型训练方法,其特征在于,所述深度神经网络模型主路的各层的权重采用8比特整型存储,所述深度神经网络模型的各层的可学习参数采用16比特浮点数存储。
8.根据权利要求1所述的模型训练方法,其特征在于,对所述深度神经网络模型的主路进行压缩的方式包括以下任意之一或任意组合:剪枝、量化、共享权重。
9.一种处理芯片,其特征在于,用于执行权利要求1至8中任一项所述的模型训练方法。
10.一种边缘终端,其特征在于,包括:至少一个处理芯片;以及,
与所述至少一个处理芯片通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理芯片执行的指令,所述指令被所述至少一个处理芯片执行,以使所述至少一个处理芯片能够执行如权利要求1至8中任一项所述的模型训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海新氦类脑智能科技有限公司,未经上海新氦类脑智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210073120.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于光伏组件的封装胶膜、其制备方法及光伏组件
- 下一篇:耳部装置





