[发明专利]一种神经网络模型结构搜索方法、装置及存储介质在审
申请号: | 202111096280.7 | 申请日: | 2021-09-17 |
公开(公告)号: | CN114202055A | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 张选杨 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李英艳;李志新 |
地址: | 100096 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 模型 结构 搜索 方法 装置 存储 介质 | ||
本公开是关于一种神经网络模型结构搜索方法、装置及存储介质。神经网络模型结构搜索方法包括:初始化第一超网络和第二超网络;基于所述第一超网络和所述第二超网络,进行模型结构搜索,得到多个候选子网络,所述多个候选子网络具有相同网络结构但不同模型参数;基于所述多个候选子网络的模型参数变化程度,确定神经网络模型结构,其中,所述候选子网络的模型参数变化程度包括所述第一超网络中子网络的参数与所述第二超网络中子网络的参数之间的变化程度。通过本公开可以改善超网络中多个子网络之间参数共享的问题。
技术领域
本公开涉及人工智能技术领域,尤其涉及一种神经网络模型结构搜索方法、装置及存 储介质。
背景技术
近年来,深度神经网络在计算机视觉以及自然语言处理任务中取得了突破性进展,因 此吸引了越来越多的人工智能(Artificial Intelligence,AI)研究者来设计性能更优的模型 结构。
自动化神经网络模型结构搜索(Neural Architecture Search,NAS)能够在给定的少量 算力下,遍历模型结构搜索到性能最优的模型结构。为了提升神经网络的模型结构搜索效 率,相关技术中提出了基于参数共享的超网络训练方法。其中,超网络由各个子网络组成, 在进行模型结构搜索时可以选择子网络进行模型结构搜索。
但是,在模型结构搜索过程中,子网络的训练阶段是不可避免的,训练子网络仍需要 消耗巨大的算力。故,相关技术中基于无需训练的神经网络模型结构搜索算法相继提出, 即直接基于初始化的超网络进行模型结构搜索,并不进行子网络的训练。但是这些方法中, 各个子网络之间仍不可避免的会出现参数共享的情况,即选择的子网络中存在重叠的子 网络,导致对模型的评估不准确。
发明内容
为克服相关技术中存在的问题,本公开提供一种神经网络模型结构搜索方法、装置及 存储介质。
根据本公开实施例的第一方面,提供一种神经网络模型结构搜索方法,包括:
初始化第一超网络和第二超网络;基于所述第一超网络和所述第二超网络,进行模型 结构搜索,得到多个候选子网络,所述多个候选子网络具有相同网络结构但不同模型参数; 基于所述多个候选子网络的模型参数变化程度,确定神经网络模型结构,其中,所述候选 子网络的模型参数变化程度包括所述第一超网络中子网络的参数与所述第二超网络中子 网络的参数之间的变化程度。
一种实施方式中,基于所述第一超网络和所述第二超网络,进行模型结构搜索,得到 多个候选子网络,包括:在所述第一超网络中采样得到多个候选子网络;在所述第二超网 络中选择与所述多个候选子网络模型结构相同的多个候选子网络,并对所述第二超网络中 的多个候选子网络进行初始化,得到与第一超网络中的多个候选子网络具有相同网络结构 但不同模型参数的多个候选子网络。
一种实施方式中,所述对所述第二超网络中的多个候选子网络进行初始化,包括:对 所述第二超网络中的多个候选子网络进行数据依赖的初始化。
一种实施方式中,对所述第二超网络中的多个候选子网络进行数据依赖的初始化,包 括:确定对所述第二超网络中多个候选子网络中每一候选子网络进行初始化过程中涉及的 卷积层;对所述卷积层进行卷积运算,并调整所述卷积层的参量,得到卷积运算后的输出 特征满足正态分布的候选子网络。
一种实施方式中,对所述卷积层进行卷积运算,并调整所述卷积层的参量,得到卷积 运算后的输出特征满足正态分布的候选子网络,包括:对所述卷积层进行卷积运算,并统 计卷积运算后的输出特征的标准差;基于所述卷积层的参量,对所述输出特征的标准差进 行归一化处理,得到卷积运算后的输出特征满足正态分布的候选子网络。
一种实施方式中,基于所述卷积层的参量,对所述输出特征的标准差进行归一化处理, 包括:将所述卷积层的参量与所述输出特征的标准差之间进行比值运算,以对输出特征标 准差进行归一化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111096280.7/2.html,转载请声明来源钻瓜专利网。