[发明专利]模型训练方法、处理芯片以及边缘终端在审
| 申请号: | 202210073120.9 | 申请日: | 2022-01-21 |
| 公开(公告)号: | CN114595814A | 公开(公告)日: | 2022-06-07 |
| 发明(设计)人: | 陈旭;陈克林;江伟杰;吕正祥;杨军民;袁抗;梁龙飞 | 申请(专利权)人: | 上海新氦类脑智能科技有限公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06N3/063 |
| 代理公司: | 上海上谷知识产权代理有限公司 31342 | 代理人: | 蔡继清 |
| 地址: | 200090 上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型 训练 方法 处理 芯片 以及 边缘 终端 | ||
本发明实施例提供了一种模型训练方法、处理芯片以及边缘终端,涉及计算机技术领域。模型训练方法包括:利用训练数据对深度神经网络模型的主路进行训练,得到深度神经网络模型主路的各层的网络参数,网络参数包括权重;对深度神经网络模型的主路进行压缩,并保存压缩后的深度神经网络模型主路的各层的权重利用采集的样本数据对当前的深度神经网络模型继续训练,更新各边路模块的各层的网络参数并保存;其中,所述主路的各层的权重保持不变。本发明中,大大减少了存储深度神经网络模型的各层的权重所需的存储空间,也减少了深度神经网络模型继续训练过程中的的内存消耗,从而能够适用于内存较小的边缘终端。
技术领域
本发明涉及计算机技术领域,具体涉及一种模型训练方法、处理芯片以及边缘终端。
背景技术
深度学习是近年来人工智能领域非常火的研究方向,其与传统的浅层机器学习相比能够挖掘出更多隐含的特征。目前,深度神经网络(Deep Neural Networks,简称DNN)在计算机视觉、语音识别、自动驾驶、癌症检测、机器人在内的诸多人工智能领域得到了广泛的应用。
然而,随着深度神经网络的飞速发展,深度神经网络的层数也在逐渐的增加,深度神经网络的层数越多,其所涉及的网络参数(例如权重、激活值等)的数量也随之增加。以残差神经网络(Residual Neural Network,简称ResNet)为例,当其层数从18层增加到50层时,在输入的彩色图像的边宽均为224像素时,网络参数的数量从11.4M增长到24.7M,同时在训练过程中储存个神经元数据所要的存储空间也会大大增加。基于此,当前深度神经网络的训练对终端存储空间要求较高,依赖于云端的训练芯片来进行,无法适用于小内存的边缘端;另外,云端训练所能使用的训练数据量较小,无法覆盖深度神经网络实际应用场景下的所有数据,当深度神经网络被部署在的边缘端时,由于边缘端内存较小,但是深度神经网络的训练对终端存储空间的要求较高,也使得边缘端无法利用产生的数据对深度神经网络进行再训练。
发明内容
本发明的目的是提供了一种模型训练方法、处理芯片以及边缘终端,大大减少了存储深度神经网络模型的各层的权重所需的存储空间,也减少了深度神经网络模型继续训练过程中的的内存消耗,从而能够适用于内存较小的边缘终端。
为实现上述目的,本发明提供了一种模型训练方法,用于对包括主路和边路的深度神经网络模型进行训练,主路包括多个子模块,每个子模块包括多层,边路包括多个边路模块,子模块与边路模块一一对应且并联,方法包括:利用训练数据对深度神经网络模型的主路进行训练,得到所述深度神经网络模型主路的各层的网络参数,所述网络参数包括权重;对所述深度神经网络模型的主路进行压缩,并保存压缩后的所述深度神经网络模型主路的各层的权重;利用采集的样本数据对当前的所述深度神经网络模型继续训练,更新各所述边路模块的各层的网络参数并保存;其中,所述主路的各层的权重保持不变。
本发明还提供了一种处理芯片,用于执行上述的模型训练方法。
本发明还提供了一种边缘终端,包括:至少一个处理芯片;以及,与所述至少一个处理芯片通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理芯片执行的指令,所述指令被所述至少一个处理芯片执行,以使所述至少一个处理芯片能够执行如上述的模型训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海新氦类脑智能科技有限公司,未经上海新氦类脑智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210073120.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于光伏组件的封装胶膜、其制备方法及光伏组件
- 下一篇:耳部装置





