[发明专利]基于度量注意力机制的图像字幕生成方法有效
| 申请号: | 201911306345.9 | 申请日: | 2019-12-18 |
| 公开(公告)号: | CN111046966B | 公开(公告)日: | 2022-04-05 |
| 发明(设计)人: | 宋威;周俊昊 | 申请(专利权)人: | 江南大学 |
| 主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/774;G06V10/82;G06K9/62;G06N3/04 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;刘秋彤 |
| 地址: | 214122 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 度量 注意力 机制 图像 字幕 生成 方法 | ||
基于度量注意力机制的图像字幕生成方法,属于计算机视觉与图像字幕处理任务。本发明模型首先提取图像的特征结合生成具有低级语义的字幕,然后利用注意力机制提取图像的特定区域结合低级语义信息生成高级字幕。利用度量学习学习和真实标签之间的差异,对于符合阈值的输出,不符合阈值的,利用本发明提出的注意力模块,该模块重新结合图像和语义信息以及历史信息生成新的字幕。本发明是一种新型生成图像字幕的方法,不需要人工描述,即可完成大量的图像字幕任务。
技术领域
本发明属于计算机视觉与图像字幕处理任务,提出了一种基于度量注意力机制MAM(MeasureAttention Mechanism)的图像字幕生成方法,可以有效的把图片中的视觉数据映射成文字数据,从而描述图片的内容。
技术背景
图像字幕对于人们理解图像是一项具有挑战性的工作。图像字幕的任务是用自然语言描述来描述输入图像。它有许多实际应用,如帮助盲人理解图像的内容,拍照片就可以马上生成合适的描述文字,省去了用户手动编辑。然而,图像字幕是一个具有挑战性的领域。不仅需要对图像中的物体进行描述,还需要用类似人的句子来表达信息。它不同于传统的图像语义理解。其主要任务是使机器识别出与人相似的图像和真实文字。因此,现提出一种精准和智能的图像字幕生成方法还是非常有必要的。
早期的图像处理方法大多都是基于传统的机器学习方法,如使用支持向量机等进行分类得到图像中的目标,进而作为生成句子的依据。深度学习的出现极大的促进了计算机视觉的发展,图像的特征提取受到了卷积神经网络(Convolutional Neural Network,CNN)的发展,识别率有了大大的提高。在图像字幕的任务中,使用CNN作为提取图像特征的编码器成为了多数的方法。谷歌在2014年率先采用了这种方法。
获取了图像信息紧接着就要把视觉信息转化成文字信息,目前多数采用的是基于生成的方法。利用循环神经网络(RecurrentNeuralNetwork,RNN)对特征图中含有文字的部分进行解码,从而达到对图像中文本识别的目的。
一般来说传统的编码——解码已经可以产生比较好的结果,随着注意力机制在机器翻译领域的成功应用,2016年Xu et al.首次提出把注意力机制应用到图像字幕的任务中去,并取得了较好的结果。它的主要思想就是把获取的图像特征对其进行注意力加权处理再用RNN进行解码。除了图像的注意力机制,语言特征的注意力机制也是当下研究的一个热门探究方向。
在解码方面,一般我们都是直接图像的特征进行提取,但是一次提取可能面临的问题是并不能完全的提取图像中的信息。在编码阶段,传统的RNN存在梯度弥散和梯度消失问题,不利于句子的生成。同时,很多方法都是把最后解码的文字最后的输出,并没有学习和真实样本之间的差异性,无法更好的描述图像的主题。因此,需要一种更好的模型,一方面可以提取更加丰富的图像信息,另一方面可以更加的准确的描述图像中所包含的信息。
发明内容
针对上述存在的问题,本发明提出了一种基于度量注意力机制的图像字幕生成方法来进行图像字幕的生成。先将图像使用CNN进行特征的提取,然后引入注意力机制提取图像的高级特征,将二者结合,生成字幕,充分的利用图像的低级和和高级特征。引入度量学习,学习生成的字幕和标签之间的差异,当达到阈值时就输出,否则重新学习,直到达到满足的条件。从而达到更加准确的生成图像字幕的目的。
本发明的技术方案:
基于度量注意力机制的图像字幕生成方法,步骤如下:
目标是给定一幅图片,将字幕作为图像预测的条件概率:
其中I表示输入的图像,θ是模型的参数;S等价为一个句子中的单词S=(S0,...,St+1),则上述(1)又描述为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911306345.9/2.html,转载请声明来源钻瓜专利网。





