[发明专利]一种模型蒸馏方法、装置、电子设备及存储介质有效

申请号：	202010607520.4	申请日：	2020-06-28
公开（公告）号：	CN111738436B	公开（公告）日：	2023-07-18
发明（设计）人：	邹昆;侯卫东;董帅	申请（专利权）人：	电子科技大学中山学院
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	唐正瑜
地址：	528400 ***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模型蒸馏方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种模型蒸馏方法、装置、电子设备及存储介质，用于快速有效地将复杂神经网络模型的参数直接迁移到简化神经网络模型上。该方法包括：获得预先训练的第一网络模型和未经训练的第二网络模型，第一网络模型的网络参数多于第二网络模型的网络参数；从第一网络模型中的第一批量正则化层中提取出第一参数和第二参数，第一参数和第二参数均是可学习的，第一参数影响网络模型的特征分布的方差，第二参数影响网络模型的特征分布的均值；根据第一参数和第二参数对第二网络模型中的第二批量正则化层进行初始化，获得初始化后的第二网络模型；使用第一网络模型对初始化后的第二网络模型进行蒸馏训练，获得蒸馏训练后的第二网络模型。

技术领域

本申请涉及人工智能、机器学习和蒸馏学习的技术领域，具体而言，涉及一种模型蒸馏方法、装置、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)，是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

机器学习(Machine Learning，ML)，是指人工智能领域中研究人类学习行为的一个分支。借鉴认知科学、生物学、哲学、统计学、信息论、控制论、计算复杂性等学科或理论的观点，通过归纳、一般化、特殊化、类比等基本方法探索人类的认识规律和学习过程，建立各种能通过经验自动改进的算法，使计算机系统能够具有自动学习特定知识和技能的能力。

知识蒸馏(Knowledge Distillation)，又被称为模型蒸馏、暗知识提取、蒸馏训练或蒸馏学习，是指将知识从一个复杂的机器学习模型迁移到另一个简化的机器学习模型，从而在保持原复杂的机器学习模型的计算准确率基本不变的情况下，简化机器学习模型的网络结构，以减小机器学习模型在实际应用中的运算量，从而提高机器学习模型的运算速度，让简化后的机器学习模型能够运行在更多计算性能不强的终端设备上。

在具体的实践中发现，目前在保证简化神经网络模型的性能几乎不受影响的情况下，难以快速有效地将复杂神经网络模型的参数直接迁移到简化神经网络模型上。

发明内容

本申请实施例的目的在于提供一种模型蒸馏方法、装置、电子设备及存储介质，用于快速有效地将复杂神经网络模型的参数直接迁移到简化神经网络模型上。

本申请实施例提供了一种模型蒸馏方法，包括：获得预先训练的第一网络模型和未经训练的第二网络模型，第一网络模型的网络参数多于第二网络模型的网络参数；从第一网络模型中的第一批量正则化层中提取出第一参数和第二参数，第一参数和第二参数均是可学习的，第一参数影响网络模型的特征分布的方差，第二参数影响网络模型的特征分布的均值；根据第一参数和第二参数对第二网络模型中的第二批量正则化层进行初始化，获得初始化后的第二网络模型；使用第一网络模型对初始化后的第二网络模型进行蒸馏训练，获得蒸馏训练后的第二网络模型。在上述的实现过程中，通过将复杂神经网络模型中的特征分布规律直接赋值给简化神经网络模型，从而极大地提升了模型蒸馏的有效性，即在保证简化神经网络模型的性能几乎不受影响的情况下，快速有效地将复杂神经网络模型的参数直接迁移到简化神经网络模型上。

可选地，在本申请实施例中，获得预先训练的第一网络模型，包括：获得多个训练图像和多个训练图像对应的标签表，多个训练图像包括目标对象的原始图像和对原始图像进行空间变换获得的变换图像，标签表包括目标对象的至少一个标签；以多个训练图像为训练数据，以多个训练图像对应的标签表为训练标签，对预先构建的第一神经网络进行训练，获得训练后的第一网络模型。在上述的实现过程中，通过获得多个训练图像和多个训练图像对应的标签表；以多个训练图像为训练数据，以多个训练图像对应的标签表为训练标签，对预先构建的第一神经网络进行训练，获得训练后的第一网络模型；从而有效地提高了第一网络模型对训练图像中的多标签识别能力。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学中山学院，未经电子科技大学中山学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010607520.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种模型蒸馏方法、装置、电子设备及存储介质有效

专利文献下载