[发明专利]一种基于深度学习的多样化图像描述语句生成技术有效
申请号: | 202110758735.0 | 申请日: | 2021-07-05 |
公开(公告)号: | CN113535999B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 任磊;孟子豪;王涛 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/51 | 分类号: | G06F16/51;G06N3/0464;G06N3/08 |
代理公司: | 北京知汇林知识产权代理事务所(普通合伙) 11794 | 代理人: | 杨华 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 多样化 图像 描述 语句 生成 技术 | ||
本发明公开了一种基于深度学习的多样化图像描述语句生成技术,属于图像描述语句生成技术领域;基于深度学习的多样化图像描述语句生成技术,用于改善传统图像描述语句生成技术中生成语句单一,宽泛而忽略图像细节的问题,适用于将图像生成为多样化的描述语句。
技术领域:
本发明涉及一种基于深度学习的多样化图像描述语句生成技术,属于图像描述语句生成技术领域。
背景技术:
目前,基于深度学习的图像描述语句生成技术,一般是通过构建“编码器-解码器”模型实现。其中,“编码器”用于将图像的数字矩阵转化为富含语义信息的高维特征编码,具体采用基于卷积神经网络的残差模型实现;而“解码器”用于将上述高维特征解码,并将其中的语义信息输入到文本生成模型中从而得到描述语句,一般解码器采用基于长短时神经网络和基于变压器(Transformer)的自注意机制两种结构用于文本生成。而模型的损失一般是基于多个参考语句,使用交叉熵作为损失函数。但是这种方法训练模型,模型在实际生成语句的时候会趋向于生成一个更加宽泛的语句描述,比如对于两种相似场景,细节不同的图像中,模型更倾向于生成一个偏概括而宽泛的语句,不但忽略了图像中的细节,而且也不能满足我们生成多样化描述语句的需要。
因此,基于上述问题,本发明设计了一种基于深度学习的多样化图像描述语句生成技术。
发明内容:
本发明的目的在于提供一种基于深度学习的多样化图像描述语句生成技术,用于改善传统图像描述语句生成技术中生成语句单一,宽泛而忽略图像细节的问题,适用于将图像生成为多样化的描述语句。
卷积神经网络被广泛应用于计算机视觉相关的各类任务中。深度卷积神经网络进行图像的特征提取,通常由卷积层(Convolution Layer)和池化层(Pooling Layer)实现。
图片在计算机中通常以数字矩阵的形式进行存储,矩阵中,每个元素即代表图片对应位置的内容信息。矩阵的个数、以及不同矩阵相同位置数值的关系具体取决于图片的色彩类型。对这种数字矩阵,卷积神经网络首先在每个卷积层设置若干个卷积核(filter),对特定特征进行检测,将原始的输入图片映射到高维的特征空间,形成输出矩阵。
卷积层的输出矩阵将交由池化层进行“下采样(Subsampling)”操作,从而减小矩阵尺寸。池化层对卷积层输出矩阵进行区域划分,而后使用非线性池化函数,提取卷积乘积矩阵中不同特征的相对位置,并将输出拼接到一起形成池化层输出。
通常,卷积层与池化层捆绑、重复使用,将输入图片的原本较大数值矩阵不断缩小,从而实现特定特征的提取效果。然而,随着网络深度的增加,梯度消失、梯度爆炸等问题使得网络的训练性能受到限制。针对这个问题,深度残差网络被提出。深度残差网络同样采用若干卷积-池化层的堆叠,但在每一个子单元设置了跳跃连接(Skip Connection)结构,以解决网络深度增加造成的梯度消失的问题。
本发明中,使用ResNet-101模型进行图像的特征提取,这种模型属于残差网络的一种标准尺寸规格。如图1所示,图像文件经过预处理后经过深度卷积神经网络形成了图像高维语义特征编码。
基于自注意力机制的图像描述语句生成模型同样采用编码器和解码器为基础,其总体结构如图4所示。模型整体采用有监督学习的方式进行训练,按照输入不同又可分为两部分。其一是以深度卷积神经网络所提取的图像高维语义特征作为输入的编码器,其二是以人工撰写的图像描述语句的嵌入序列作为输入的解码器。
一方面,图像高维语义特征被直接输入到编码器中的第一个编码块,编码块的结构即为图2所示。每一个编码块的输出即为下一层的输入,直至第六个编码块给出输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110758735.0/2.html,转载请声明来源钻瓜专利网。