[发明专利]一种基于深度学习的图像语义生成方法在审
| 申请号: | 201611035273.5 | 申请日: | 2016-11-17 |
| 公开(公告)号: | CN108073941A | 公开(公告)日: | 2018-05-25 |
| 发明(设计)人: | 张威;周治平 | 申请(专利权)人: | 江南大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 214122 江苏省无锡市滨湖*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 图像语义 卷积神经网络 时间记忆 人工标注 长段 损失函数 神经网络技术 网络 语义 反向传播 模型结构 图像输入 图像特征 图像整体 网络生成 应用卷积 构建 学习 优化 | ||
1.一种基于深度学习的图像语义生成方法;其特征在于,所述的方法基于深度学习的图像语义生成主要包含如下步骤:
步骤1:通过图像整体语义生成要求,构建一种结合卷积神经网络和长段时间记忆网络的模型结构;
步骤2:为解决“过拟合”问题,使用其他数据预训练卷积神经网络,得到预训练好的卷积神经网络,通过训练数据对所述预训练好卷积神经网络进行训练得到卷积神经网络模型;
步骤3:通过卷积神经网络提取的图像高层特征和正确的语义信息对长短时间记忆网络进行训练得到长短时间记忆网络模型,然后通过训练数据对卷积神经网络和长短时间记忆网络进行联合训练得到最终的图像语义产生模型;
步骤4:将图像输入到得到的模型中,生成图像内容的语义描述。
2.根据权利要求1所述的一种基于深度学习的图像语义生成方法,其特征在于:在步骤1中所使用结合卷积神经网络和长段时间记忆网络的模型结构,为了能够完整提取图像内容语义,设计一种结合卷积神经网络和长短时间记忆网络的图像语义生成模型;使用卷积神经网络提取图像的高层语义特征,可以有效避免“语义鸿沟”问题,卷积神经网络提取的特征只在第一次输入到长短时间记忆网络中,有:
x
其中CNN()表示提取卷积神经网络特征;
长短时间记忆网络根据提取的图像特征和正确的语义信息进行预测图像对应特征生成的对应单词,有:
p
其中,LSTM()表示对输入x
整体网络根据最小化损失函数来确定模型最后的语义输出,损失函数定义如下:
L
那么,最小化损失函数公式为:
θ是模型参数,I表示图像,S表示图像对应的语义描述。
3.根据权利要求1所述的一种基于深度学习的图像语义生成方法,其特征在于:在步骤2中使用预训练好的卷积神经网络替代原始卷积神经网络;训练数据过少会导致深度神经网络训练过程中出现的“过拟合”,使用预训练的卷及神经网络避免过拟合问题;在将卷积神经网络应用于图像语义生成之前,使用其他样本数目较多的数据库对卷积神经网络进行训练,训练完成后再使用图像语义生成所用图像库对预训练好的卷积神经网络进行训练,得到卷积神经网络模型。
4.根据权利要求1所述的一种基于深度学习的图像语义生成方法,其特征在于:步骤2,步骤3中联合构成的先单独训练再联合训练模型的方法;首先对卷积神经网络进行训练,得到训练好的卷积神经网络模型,然后使用该模型提取图像的高层特征与训练使用语义信息对长短时间记忆网络进行训练,得到训练好的长短时间记忆模型,在长短时间记忆网络训练过程中,卷积神经网络参数保持不变;最后对卷积神经网络和长短时间记忆网络联合训练,训练过程中,卷积神经网络参数和长短时间记忆网络参数均会进行优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611035273.5/1.html,转载请声明来源钻瓜专利网。





