[发明专利]一种基于集成知识蒸馏的图像分类方法有效
申请号: | 202011058365.1 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112199535B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 杨柳;蔡登;王闻箫;何晓飞 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/55 | 分类号: | G06F16/55;G06V10/764;G06V10/774;G06V10/82;G06N3/02;G06N3/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 彭剑;胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 知识 蒸馏 图像 分类 方法 | ||
本发明公开了一种基于集成知识蒸馏的图像分类方法,包括以下步骤:(1)预训练教师模型,将教师模型的训练过程分为三个阶段,从每个阶段中取出一个最好的教师模型,得到3个教师模型T1、T2和T3;(2)训练学生模型,将学生模型的训练过程划分为三个阶段,每个阶段用得到的三个教师模型来联合指导学生模型;其中,T3在每个阶段的权重保持不变;T1在第一阶段权重最大,T2在第二阶段权重最大;(3)使用训练好的学生模型进行图片分类任务,输入待分类图片,进行分类预测。利用本发明,使得学生模型从教师模型中学习知识变得简单,从而进一步提高学生模型的性能,在提高模型响应速度的同时保证图像分类的精度。
技术领域
本发明属于图像分类技术领域,尤其是涉及一种基于集成知识蒸馏的图像分类方法。
背景技术
在自动驾驶领域,网络模型的实时性是一项十分重要的指标。模型需要根据摄像头传入的图片进行分类判断,然后进行驾驶决策。这就需要模型能够快速响应,短时间内得到分类结果。但现阶段的高性能模型参数量较多,一般无法实时响应。这就需要使用模型压缩技术对大模型进行压缩,得到规模较小模型的同时,不会造成太大的精度损失。
知识蒸馏是一种重要的模型压缩技术。在训练一个较小的模型时,会引入一个已训练好的较大模型的监督信息。这样的训练方式可使得原本的小模型的性能提升一至二个百分点。我们把较小的模型称作学生模型,把较大的模型称作教师模型。通过知识蒸馏,我们可以得到一个规模较小但性能较强的学生模型。学生模型参数量小,推理速度快,而且可以结合其他的模型压缩技术。
知识蒸馏最初由Hinton等人在2015年康奈尔大学Arxiv网站上公布的技术文章《Distilling the knowledge in a neural network》中提出。在图像分类任务上所使用。在训练学生模型的同时,引入了已训练好的教师模型的输出和学生模型输出的Kullback-Leibler散度。使得知识从教师模型可以迁移到学生模型,从而使得学习模型有着更好的性能。但相关研究表明,学生模型由于参数量小,因此其表征能力远逊色于教师模型。学生模型从教师模型中学习知识也是一个较困难的过程。从而使得学生模型和教师模型之间任然有着较大的性能差距。那么如何使得学生模型的学习过程变得更容易就是一个值得研究的内容。
发明内容
本发明提供了一种基于集成知识蒸馏的图像分类方法,使得学生模型从教师模型中学习知识变得简单,从而进一步提高学生模型的性能,在提高模型响应速度的同时保证图像分类的精度。
一种基于集成知识蒸馏的图像分类方法,包括以下步骤:
(1)预训练教师模型,将教师模型的训练过程分为三个阶段,从每个阶段中取出一个最好的教师模型,得到3个教师模型T1、T2和T3;
(2)训练学生模型,将学生模型的训练过程划分为三个阶段,每个阶段用得到的三个教师模型来联合指导学生模型;其中,T3在每个阶段的权重保持不变;T1在第一阶段权重最大,T2在第二阶段权重最大;
(3)使用训练好的学生模型进行图片分类任务,输入待分类图片,进行分类预测。
本发明使用集成学习的思想,从教师模型的训练过程中提取出3个教师模型,依次由弱到强。之后训练学生模型的时候,同时引入这3个教师模型的监督信息。较弱的两个教师模型可起到桥梁的作用,使得学生模型的学习变得更简单。
步骤(1)的具体步骤为:
(1-1)对训练数据集进行预处理,然后将数据分批次送入教师网络中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011058365.1/2.html,转载请声明来源钻瓜专利网。