[发明专利]基于预训练模型滤波器提取的卷积神经网络初始化方法在审
申请号: | 201711335174.3 | 申请日: | 2017-12-14 |
公开(公告)号: | CN108108806A | 公开(公告)日: | 2018-06-01 |
发明(设计)人: | 周巍;张冠文 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练模型 初始化 网络结构 滤波器 卷积神经网络 滤波器参数 网络模型 应用问题 最小熵 视频处理技术 网络初始化 内存开销 速度要求 线性重构 中小规模 重构 灵活 应用 | ||
本发明提供了一种基于预训练模型滤波器提取的卷积神经网络初始化方法,涉及视频处理技术领域,本发明利用最小熵损失及最小重构误差方法,提取预训练模型中滤波器参数,用以初始化目标任务网络模型,实现满足实际应用问题中小规模网络初始化问题。本发明由于使用最小熵损失及最小线性重构方法,从预训练模型中提取滤波器参数,对目标任务网络模型进行初始化,本发明不要求目标任务网络结构和预训练网络结构一致,可使目标任务根据实际应用灵活设计网络结构,满足实际应用问题中内存开销与计算速度要求。
技术领域
本发明涉及视频处理技术领域,尤其是一种卷积神经网络初始化方法。
背景技术
深度卷积神经网络(ConvolutionalNeuralNetwork,CNN)通过学习多层非线性网络结构,利用简单的网络结构实现目标函数的逼近,进而能够从原始数据样本集中学习获得样本数据的特征表示。得益于海量数据,深度卷积神经网络是近年来在人工智能和机器学习领域取得的重要突破之一,它在图像分析、语音识别和自然语言处理方面取得巨大成功。
由于在实际应用问题中往往仅有少量数据,训练获得的CNN模型具有过拟合情况,其模型泛化能力较弱,在目标任务上性能很差。一种有效的解决方案是使用良好的策略对网络模型初始化。传统方法通常通过对高斯分布采样,对卷积网络中滤波器参数进行初始化。随着网络结构在广度和深度上扩展,高斯分布初始化方法难以满足复杂网络结构要求。为解决上述问题,Lee及Sermanet等人研究利用监督学习或非监督学习方法,对CNN网络中的卷积层逐层训练初始化。由于相关方法需要额外训练时间,同时由于卷积层训练局部最优问题,上述初始化方法在实际应用中没有得到广泛使用。Girshick等人提出利用预训练模型初始化目标任务网络模型的方法。在大规模数据集上训练获得的预训练模型,具有一定的特征表示能力及泛化能力。将预训练模型用于目标任务网络模型的初始化,CNN网络模型能够出色的完成目标任务。然而,这种使用预训练模型初始化方法具有以下方面局限。首先,使用预训练模型要求预训练模型网络结构与目标任务网络结构一致,如卷积层中滤波器数量、滤波器大小、步长,这使得网络模型不能够根据目标任务灵活设计网络结构。其次,由于预训练模型网络结构规模通常较大,实际应用问题中目标任务内容开销及计算速度要求较高,因此大规模网络结构模型不能够适应于实际应用问题中的目标任务。如何研究利用预训练网络模型,对具体应用问题中小规模网络进行初始化,满足实际应用中内容开销及计算速度,具有十分重要的意义。
发明内容
为了克服现有技术的不足,本发明提供一种基于预训练模型滤波器提取的卷积神经网络初始化方法。本发明目的为设计基于预训练模型滤波器提取的卷积神经网络初始化方法,利用最小熵损失及最小重构误差方法,提取预训练模型中滤波器参数,用以初始化目标任务网络模型,实现满足实际应用问题中小规模网络初始化问题。
本发明解决其技术问题所采用的技术方案包括以下步骤:
第一步:针对目标任务设计CNN网络结构;
第二步:选择预训练网络模型;
第三步:根据目标任务网络结构,使用最小熵损失或最小重构误差两种方法提取预训练模型中滤波器参数;定义F
a)基于最小熵损失的滤波器参数提取方法
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711335174.3/2.html,转载请声明来源钻瓜专利网。