[发明专利]一种基于对抗三元组损失的零样本知识蒸馏方法及系统在审
申请号: | 202210401592.2 | 申请日: | 2022-04-18 |
公开(公告)号: | CN114972904A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 付莹;王子淳 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06V10/778;G06V10/82 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 三元 损失 样本 知识 蒸馏 方法 系统 | ||
本发明涉及一种基于对抗三元组损失的零样本知识蒸馏方法及系统,属于计算机视觉技术领域。本发明提出的距离加权的三元组选择采样策略,从学生的特征空间中对三元组表示集进行更优的采样,只鼓励所有阳性样本彼此保持一定距离。通过使用保序回归,基于边际的损失关注相对顺序,提高图像生成效率和图像质量。本方法无需接触原始训练集,只需要用户提供预训练好的教师模型参数,学生模型的训练可以自动根据教师模型参数和生成器生成的图像完成。本发明在不需要特殊设备、具有较快训练速度和精度的前提下保证生成图像的多样性和信息丰富度,提高合成图像集质量,在保证数据隐私性的情况下训练高精度的轻量级模型。
技术领域
本发明涉及一种零样本知识蒸馏方法及系统,具体涉及一种基于对抗三元组损失模型反演的零样本知识蒸馏方法及系统,属于计算机视觉技术领域。
背景技术
知识蒸馏(KD)作为一种模型压缩方法,是一种基于“教师-学生网络思想”的训练方法,由于其简单有效,在工业界被广泛应用。作为模型压缩和加速的代表类型,知识蒸馏能够有效从大型“教师模型”中学习“小型学生模型”,迅速受到行业的关注。
目前,知识蒸馏大多数扩展均集中在压缩深度神经网络上,由此产生的轻量级学生网络可以轻松部署在视觉识别、语音识别、自然语言处理(NLP)等应用程序中。此外,知识蒸馏中的知识,从一种模型到另一种模型的转移,可以扩展到其他任务,例如对抗攻击、数据增强、数据隐私和安全性等。通过知识蒸馏的动机进行模型压缩,知识转移的思想已被进一步应用于压缩训练数据,即数据集蒸馏,将知识从大型数据集转移到小型数据集,以减轻深度模型的训练负担。
模型反演(MI)旨在从预训练模型的参数重建输入,最初是为了理解神经网络的深层表示而提出的。给定函数φ(x)与输入x的映射,标准模型反演问题可以形式化为求一个x'使d(φ(x),φ(x'))最小,其中d(·,·)是一个误差函数,如均方误差。这种范式被称为模型反演攻击,广泛应用于模型安全性和可解释性等多个领域。近年来,反演技术在知识转移方面表现出了良好的效果,实现了无数据知识蒸馏。
早期知识蒸馏框架通常包含一个或多个大型的预训练教师模型和小型的学生模型,教师模型通常比学生模型大得多,主要思想是在教师模型的指导下训练高效的学生模型以获得相当的准确性。来自教师模型的监督信号(通常称为教师模型学到的“知识”)可以帮助学生模型模仿教师模型的行为。
发明内容
本发明的目的是从现有深度学习模型训练服务对数据隐私性的需求出发,针对传统知识蒸馏方法成本高、效率低、需要访问全部数据集的等缺点,以及现有模型反演图像生成方法只考虑单个样本的生成损失,无法把握不同类别样本间的差异性以及相同类别样本间相似性的问题,创造性地提出一种泛化性好、生成数据质量高的于对抗三元组损失模型反演的零样本知识蒸馏方法及系统。本方法的生成图像在特征空间中具有类间相似性以及类内差异性,并且保证训练的学生模型对类间模型提取的特征差异大于类内特征。
为达到以上目的,本发明采用以下技术方案。
一种基于对抗三元组损失的零样本知识蒸馏方法,包括预训练阶段、模型反演阶段和模型训练阶段。
步骤1:预训练。
首先将收集好的图像训练集进行分类标注,然后选择合适的卷积神经网络模型;将训练集中的所有图像分批次送入随机初始化的卷积神经网络中,计算预测值与真实标签的交叉熵损失;然后计算卷积神经网络中各参数相对于损失的梯度,利用随机梯度下降法更新模型参数得到训练好的教师模型。
步骤2:模型反演。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210401592.2/2.html,转载请声明来源钻瓜专利网。