[发明专利]一种复用深度神经网络模型训练模型的方法和系统在审
申请号: | 201910544437.4 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110428051A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 段凌宇;陈子谦;楼燚航;黄铁军 | 申请(专利权)人: | 北京大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 复用 神经网络模型 复用模型 信息特征 训练模型 数据集 任务数据 规约 场景 标签混合 反向传播 特征变换 权重 尺度 协同 更新 申请 | ||
1.一种复用深度神经网络模型训练模型的方法,其特征在于,包括:
将数据集分别输入复用模型和待训练模型,得到复用特征、待训练特征和待训练模型损失;
使用映射矩阵、复用特征和待训练特征计算复用模型和待训练模型之间的复用损失;
使用待训练模型损失和复用损失计算总损失;
根据总损失使用反向传播训练和更新待训练模型和映射矩阵。
2.如权利要求1所述的方法,其特征在于,还包括:当训练次数达到训练周期时,停止训练和更新所述待训练模型和映射矩阵,或当总损失小于等于阈值时,停止训练和更新所述待训练模型和映射矩阵。
3.如权利要求1所述的方法,其特征在于,当复用模型为多个时,使用各映射矩阵、各复用特征和各待训练特征分别计算各复用模型和待训练模型之间的复用损失。
4.如权利要求1所述的方法,其特征在于,所述将数据集分别输入复用模型和待训练模型,得到复用特征、待训练特征和待训练模型损失,包括:
将数据集输入复用模型中,从所述复用模型中提取除最后一层以外的至少一层输出的复用特征;
将数据集输入待训练模型中,从待训练模型中提取除去最后一层以外的至少一层输出的待训练特征;以及从待训练模型的最后一层中,提取待训练模型损失。
5.如权利要求4所述的方法,其特征在于,从复用模型中提取的复用特征的数量与从待训练模型中提取的待训练特征的数量相同。
6.如权利要求5所述的方法,其特征在于,当复用模型为多个时,从各复用模型中提取的复用特征的数量不同或相同。
7.如权利要求1所述的方法,其特征在于,所述使用映射矩阵、复用特征和待训练特征计算复用模型和待训练模型之间的复用损失,包括:
将待训练特征中各层的待训练特征分别乘以映射矩阵后,得到各层的映射特征;
计算各映射特征和与其对应的复用特征的逐元素位点的差的均方根,得到各层的层损失;
各层的层损失分别乘以模型重要度后求和,得到复用模型和待训练模型之间的复用损失。
8.如权利要求1所述的方法,其特征在于,在所述使用映射矩阵、复用特征和待训练特征确定复用模型和待训练模型之间的复用损失之前,还包括:
对复用特征和待训练特征分别进行特征变换,得到经过特征变换后的复用特征和待训练特征。
9.如权利要求1所述的方法,其特征在于,所述数据集包括:有标签数据和无标签数据。
10.一种复用深度神经网络模型训练模型的系统,其特征在于,包括:
复用模块,用于将数据集输入复用模型,得到复用特征;
训练模块,用于将数据集输入待训练模型,得到待训练特征和待训练模型损失;根据总损失使用反向传播训练待训练模型和映射矩阵;
损失计算模块,用于使用映射矩阵、复用特征和待训练特征计算复用模型和待训练模型之间的复用损失;使用待训练模型损失和复用损失计算总损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910544437.4/1.html,转载请声明来源钻瓜专利网。