[发明专利]用于知识保存式神经网络剪枝的系统和方法在审
| 申请号: | 202280006801.1 | 申请日: | 2022-03-10 |
| 公开(公告)号: | CN116348892A | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 严恩勖;胥栋宽;肖志斌 | 申请(专利权)人: | 墨芯国际有限公司 |
| 主分类号: | G06N3/082 | 分类号: | G06N3/082;G06N3/042 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 南霆 |
| 地址: | 中国香港新蒲岗六合*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 知识 保存 神经网络 剪枝 系统 方法 | ||
1.一种计算机实施的方法,包括:
获得基于多个通用训练数据训练的预训练机器学习模型;
通过基于与任务相对应的多个特定任务训练数据微调所述预训练机器学习模型来训练特定任务机器学习模型;
基于所述特定任务机器学习模型构建学生网络;
同时执行(1)从作为教师网络的经训练的所述特定任务机器学习模型到所述学生网络的知识蒸馏和(2)对所述学生网络进行网络剪枝;和
获得用于服务所述任务的经训练的所述学生网络。
2.根据权利要求1所述的方法,其中,所述执行知识蒸馏包括:
选择所述教师网络的一个或多个层;
将所述多个特定任务训练数据送入所述学生网络和所述教师网络;以及
响应于所述多个特定任务训练数据,调整所述学生网络的参数,使所述学生网络的输出与所述教师网络的所述一个或多个层的输出之间的差异最小化。
3.根据权利要求1所述的方法,其中,所述预训练机器学习模型是预训练的自然语言神经网络。
4.根据权利要求3所述的方法,其中,所述执行知识蒸馏包括:
构建用于基于所述教师网络训练所述学生网络的蒸馏损失函数,其中,所述蒸馏损失函数包括对应于所述教师网络的一个或多个层的多个损失函数。
5.根据权利要求4所述的方法,其中,所述教师网络的所述一个或多个层包括:
嵌入层;
自注意力层;
前馈层;和
输出层。
6.根据权利要求4所述的方法,其中,所述多个损失函数包括以下至少一个:
基于所述学生网络的一个或多个嵌入层与所述教师网络的一个或多个嵌入层之间的差异的均方误差的损失函数;
基于所述学生网络的一个或多个层的注意力矩阵与所述教师网络的所述一个或多个层的注意力矩阵之间的差异的均方误差的损失函数;
基于所述学生网络的一个或多个层的隐藏表示与所述教师网络的所述一个或多个层的隐藏表示之间的差异的均方误差的损失函数;或者
所述教师网络与所述学生网络的对数几率之间的软交叉熵损失。
7.根据权利要求1所述的方法,其中,所述对所述学生网络进行网络剪枝包括:
通过将相对应的参数设置为零来减少所述学生网络的一个或多个层中的激活神经元的数量。
8.根据权利要求1所述的方法,其中,所述教师网络和所述学生网络共享相同的神经网络结构。
9.根据权利要求1所述的方法,其中,所述预训练机器学习模型是用于计算机视觉任务的预训练的残差网络。
10.根据权利要求9所述的方法,其中,所述执行知识蒸馏包括:
构建用于基于所述教师网络训练所述学生网络的蒸馏损失函数,其中,所述蒸馏损失函数包括对应于所述教师网络的一个或多个层的多个损失函数,并且所述教师网络的所述一个或多个层包括:
权重层;和
输出层。
11.根据权利要求1所述的方法,其中,所述基于所述特定任务机器学习模型构建学生网络包括:
通过复制所述特定任务机器学习模型来初始化所述学生网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于墨芯国际有限公司,未经墨芯国际有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202280006801.1/1.html,转载请声明来源钻瓜专利网。





