[发明专利]一种生成学生网络模型的方法有效

专利信息
申请号: 202010243249.0 申请日: 2020-03-31
公开(公告)号: CN111291836B 公开(公告)日: 2023-09-08
发明(设计)人: 宫禄齐;徐勇军;李超 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06V10/774 分类号: G06V10/774;G06V10/764;G06V10/82;G06N3/0442;G06N3/0464;G06N3/0475;G06N3/082;G06N3/084
代理公司: 北京泛华伟业知识产权代理有限公司 11280 代理人: 王勇
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 生成 学生 网络 模型 方法
【说明书】:

发明提供了一种生成学生网络模型的方法。所述方法包括下述步骤:步骤1)、获取预训练的教师网络模型;步骤2)、构建辅助网络模型;步骤3)、对所述辅助网络模型初始化,利用初始化的辅助网络模型生成学生网络;步骤4)、利用带有图像标签的训练图像对辅助网络进行训练。采用本发明的辅助网络能自动学习出学生网络的结构、神经元数目、卷积核数目。避免人工尝试,且本发明方法的自动学习结果的模型检测精度要比人工尝试方法精度更高。所需要的计算量呈指数级下降。

技术领域

本发明涉及人工智能领域,具体涉及深度神经网络模型压缩。

背景技术

人工智能算法由训练和推理两阶段组成,其在计算机视觉、语音识别、自然语言处理方面取得了很大成功。边缘智能将人工智能融入边缘计算,将智能算法部署在边缘设备。作为更快更好地提供智能服务的一种服务模式,边缘智能已逐渐渗入各行各业。

然而,当前边缘智能面临着巨大挑战。将人工智能算法部署在边缘设备上面临着计算、存储、能耗资源受限的挑战:边缘设备的计算、存储能力往往远小于专用服务器。无法满足人工智能训练、推理所需。除此之外,部分边缘设备采用蓄电池等小型供电设备,无法满足计算所需的能耗。例如:NVIDIA的AI嵌入式设备Jetson TX2拥有256个CUDA核心、8G内存、7.5W能耗;而NVIDIA 1080TI GPU拥有3584个CUDA核心,11G显存,二者有很大性能差异。

对人工智能算法模型进行压缩是解决上述挑战的有效方法。压缩后的模型对设备的计算、存储、能耗资源需求降低很多,同时推理的精度不受太大影响。

目前的模型压缩方法有如下几类:直接设计小网络、剪枝量化、网络分解、知识蒸馏。其中知识蒸馏的基本思想是通过软化的Softmax目标变换学习教师网络输出的类别分布,并将大型网络模型(教师网络)的知识精炼为小型网络模型(学生模型)的知识。该方法的表现较稳定、有完备的数学理论基础、物端部署方便,是较常用的模型压缩方法。

2006年Bucilu ǎ等人首先提出利用知识迁移方法来压缩模型,他们通过集成强分类器标注的伪数据训练了一个压缩模型,并重现了原大型网络的输出结果,然而他们的工作仅限于浅层网络。近年来,知识蒸馏提出了可以将深层的网络压缩为浅层网络方法,其中的学生模型模仿了教师模型所实现的功能。

Hinton等人提出了知识蒸馏的压缩框架,通过软化教师网络输出指导学生网络,该框架将教师网络输出的软目标作为标签,训练学生网络。Romero等人提出了基于知识蒸馏的FitNet,通过训练窄且深的网络结构(学生网络),压缩宽且浅的网络(教师网络)。

虽然基于知识蒸馏的深度神经网络压缩与加速方法能使深层模型变得精巧,同时大大减少了计算开销,但是依然存在一个关键问题待解决:小型网络模型(学生网络)的设计对模型最终表现影响大,具体设计依赖人工和经验试错,影响压缩、部署效率。

逻辑学习法提出的学生网络的隐藏层一般较宽,而Fitnets法提出的学生网络深度甚至比教师网络还要深。到目前为止,还没有有效的指导方案来根据数据集和教师网络结构快速设计学生网络结构使得保证压缩效果的同时模型的表现不受到明显影响。

综上所述,本申请的发明人在进行神经网络知识蒸馏压缩研究时发现,现有技术中存在这样的缺陷:知识蒸馏压缩效果很依赖学生网络的结构设计,而学生网络的结构设计没有指导性准则,针对每个教师网络、每种训练数据都需要大量尝试后对比,这无疑增加了知识蒸馏的训练负荷和训练时间。

发明内容

发明人经过对知识蒸馏学生网络结构设计研究,终于找到了可以解决该问题的方法。本发明通过算法迭代确定学生网络保留教师网络哪些卷积通道、全连接层,在知识蒸馏的过程中直接搜索最优的学生网络结构。通过学习一个元辅助网络MetaNetwork,为不同的学生网络结构生成权重,极大程度加速最优学生网络结构的搜索过程。省时省力,同时可以轻松设计学生网络shortcut中的通道。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010243249.0/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top