[发明专利]基于迁移学习的深度神经网络的训练方法和装置在审
| 申请号: | 202010590593.7 | 申请日: | 2020-06-24 |
| 公开(公告)号: | CN111783949A | 公开(公告)日: | 2020-10-16 |
| 发明(设计)人: | 李兴建;熊昊一;安昊哲;窦德景 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 迁移 学习 深度 神经网络 训练 方法 装置 | ||
本申请实施例公开了一种基于迁移学习的深度神经网络的训练方法和装置,涉及人工智能技术,尤其涉及迁移学习、深度学习和神经网络技术领域。具体实现方案为:获取待训练的深度神经网络,所述深度神经网络包括预训练的图像特征提取网络和未训练的图像处理网络;对所述图像特征提取网络和图像处理网络进行训练;在训练过程中,对所述图像处理网络的训练后参数进行重新调整。本申请实施例可以提高特征提取网络的特征提取能力。
技术领域
本申请涉及人工智能技术,尤其涉及迁移学习、深度学习和神经网络技术领域。
背景技术
近些年深度学习和迁移学习取得了巨大的技术突破和快速的应用普及,迁移学习能够借助大数据充分训练的源模型,提升业务中小规模样本集的训练效果。基于迁移学习的深度神经网络包括迁移而来的特征提取网络和适用于目标任务的处理网络。
在对基于迁移学习的深度神经网络进行训练时,在整个网络的范围内针对目标任务微调参数,由于预训练的特征提取网络本身有一定的迁移能力,在微调(fine-tuning)早期甚至之前就可以给目标任务提供相当有价值的深度特征,此时目标网络很容易快速拟合训练样本,导致用于更新参数的梯度从反向传播的源头减弱甚至消失,无法充分的更新特征提取网络,使之更适配分类任务。
简而言之,上述深度神经网络过快拟合的问题导致了特征提取网络的欠拟合。深度学习的主要优势就在于深层的特征提取网络有强大的特征学习能力,这种欠拟合则影响了迁移学习任务中特征提取网络对目标任务的特征学习。
发明内容
本申请实施例提供了一种基于迁移学习的深度神经网络的训练方法、装置、设备和可读存储介质,以训练深度神经网络。
第一方面,本申请实施例提供了一种基于迁移学习的深度神经网络的训练方法,包括:
获取待训练的深度神经网络,所述深度神经网络包括预训练的图像特征提取网络和未训练的图像处理网络;
对所述图像特征提取网络和图像处理网络进行训练;
在训练过程中,对所述图像处理网络的训练后参数进行重新调整。
第二方面,本申请实施例还提供了一种基于迁移学习的深度神经网络的训练装置,包括:
获取模块,用于获取待训练的深度神经网络,所述深度神经网络包括预训练的图像特征提取网络和未训练的图像处理网络;
训练模块,用于对所述图像特征提取网络和图像处理网络进行训练;
重新调整模块,用于在训练过程中,对所述图像处理网络的训练后参数进行重新调整。
第三方面,本申请实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行任一实施例所提供的一种基于迁移学习的深度神经网络的训练方法。
第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行任一实施例所提供的一种基于迁移学习的深度神经网络的训练方法。
根据本申请的技术可以提高特征提取网络的特征提取能力。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010590593.7/2.html,转载请声明来源钻瓜专利网。





