[发明专利]知识蒸馏方法、装置、电子设备及计算机可读存储介质在审
| 申请号: | 202110571871.9 | 申请日: | 2021-05-25 |
| 公开(公告)号: | CN113344213A | 公开(公告)日: | 2021-09-03 |
| 发明(设计)人: | 束长勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 谷春静 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 知识 蒸馏 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本公开公开了知识蒸馏方法、装置、电子设备及计算机可读存储介质,涉及计算机视觉和深度学习等人工智能领域,可应用于图像处理等场景下,其中的方法可包括:将相同的待处理数据分别输入教师网络和学生网络;分别获取教师网络和学生网络针对待处理数据生成的预定信息,并执行以下预定处理:根据所述预定信息构建正样本对和负样本对,根据正样本对和负样本对生成对比损失;根据对比损失更新学生网络。应用本公开所述方案,可提升学生网络的性能等。
技术领域
本公开涉及人工智能技术领域,特别涉及计算机视觉和深度学习等领域的知识蒸馏方法、装置、电子设备及计算机可读存储介质。
背景技术
知识蒸馏是指通过知识迁移,利用训练好的大模型得到更小更快的小模型,大模型又可称为教师模型或教师网络,小模型又可称为学生模型或学生网络。
知识蒸馏在生成任务小型化中得到了广泛应用。目前,生成任务的蒸馏方法的对齐损失函数通常都是逐像素点范式的对齐,导致结构化信息的丢失,从而使得得到的学生网络的性能不佳。
发明内容
本公开提供了知识蒸馏方法、装置、电子设备及计算机可读存储介质。
一种知识蒸馏方法,包括:
将相同的待处理数据分别输入教师网络和学生网络;
分别获取所述教师网络和所述学生网络针对所述待处理数据生成的预定信息,并执行以下预定处理:根据所述预定信息构建正样本对和负样本对,根据所述正样本对和所述负样本对生成对比损失;
根据所述对比损失更新所述学生网络。
一种知识蒸馏装置,包括:第一处理模块、第二处理模块以及第三处理模块;
所述第一处理模块,用于将相同的待处理数据分别输入教师网络和学生网络;
所述第二处理模块,用于分别获取所述教师网络和所述学生网络针对所述待处理数据生成的预定信息,并执行以下预定处理:根据所述预定信息构建正样本对和负样本对,根据所述正样本对和所述负样本对生成对比损失;
所述第三处理模块,用于根据所述对比损失更新所述学生网络。
一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如以上所述的方法。
上述公开中的一个实施例具有如下优点或有益效果:可通过构建正负样本对来生成对比损失,并可根据对比损失来更新学生网络,即可通过对比学习来实现结构化知识迁移,从而提升了学生网络的性能等。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开所述知识蒸馏方法实施例的流程图;
图2为本公开所述知识蒸馏方法的整体实现过程示意图;
图3为本公开所述知识蒸馏装置实施例300的组成结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110571871.9/2.html,转载请声明来源钻瓜专利网。





