[发明专利]基于场景图更新与特征拼接的图像字幕生成方法在审
申请号: | 202111283716.3 | 申请日: | 2021-11-01 |
公开(公告)号: | CN113918754A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 吴春雷;李阳;路静;郝宇钦;韦学艳 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 场景 更新 特征 拼接 图像 字幕 生成 方法 | ||
本发明公开了一种基于场景图更新与特征拼接的图像字幕生成方法,它解决了当前基于场景图的图像字幕模型中长短期记忆神经网络丢失先前输入的细节信息的问题,以及场景图更新机制中结点更新程度过大的问题。本发明首次提出了特征拼接网络,该网络对语言LSTM的输入变量做了改进,目的是尽可能多地保留原始输入信息,减少输入信息在计算过程中的损失。其次,本发明提出一种新的场景图更新机制来更新已访问过的结点权重,避免引起结点信息丢失的问题。同时,本发明设计了图更新系数来指导图更新,以确定更新程度的大小。本发明在官方数据集Microsoft COCO上进行了实验,在各种评估机制的实验中取得了有竞争力的结果。
技术领域
本发明属于图像字幕自动生成方法,涉及计算机视觉和自然语言处理的技术领域。
背景技术
计算机根据给定的图像自动生成简短的描述图像的句子,这个任务被称为图像字幕生成。在当前的计算机视觉领域中,图像字幕生成融合了机器学习、计算机视觉等多个不同领域,是一项具有挑战性的任务。主流的图像字幕生成模型大多数采用卷积神经网络获取图像视觉特征,并对显著区域和对象施加注意力,通过递归模型生成描述。Vinyals等人采用卷积神经网络将图像视觉信息编码为固定长度向量,递归神经网络作为解码器,依次生成单词。Lu等人提出了一种自适应注意力机制,在模型生成单词时判断是否需要关注图像信息及关注的程度。随着对图像字幕生成任务的研究逐渐增多,图像的场景图被用来增强图像字幕生成模型,从而利用场景图的结构语义,如对象、关系和属性。然而当前基于场景图的图像字幕生成模型并未考虑到长短期记忆神经网络对于先前输入信息的保留,目前大部分图像字幕生成任务都是基于编码器-解码器框架结构,但解码器对于输入到LSTM中的信息经过多次计算后可能会丢失部分原始输入信息。原始输入信息中的细节能够指导句子的生成,因为对于模型生成的句子,其中每个单词的生成都要依赖于输入信息,假如丢失了先前的原始输入信息,则很难生成准确的句子。
在使用场景图生成描述的研究中,图更新机制在每一步解码后更新当前的图,改变图结点的权重以保证结点不被重复使用,但是当前的场景图更新机制中存在结点更新程度过大的问题,改变权重的方式容易丢失有效的信息,导致生成句子的准确度降低。
为了在一定程度上解决丢失原始信息和图更新程度过大的问题,本文提出了基于场景图更新与特征拼接的图像字幕生成网络,该网络改进了图更新机制及语言LSTM中的输入信息,目的是使图更新程度的大小更合理,并减少原始信息的细节损失。首先,每张图像对应一个场景图信息,网络对场景图进行编码,对编码后的场景图特征施加注意力,网络将得到的上下文特征传递给双层LSTM进行解码,其中将原始信息注入到语言LSTM中,最后通过场景图更新模块将已访问过的结点权重降低,以既可以使网络关注未关注过的结点,又尽可能保留结点的内容信息。
发明内容
本发明的目的是解决丢失原始信息和图更新程度过大的问题,在更新过程中保持删除信息和保留信息的平衡,使图更新程度的大小更合理,并减少原始信息的细节损失,从而生成与输入图像内容更匹配的句子。
本发明为解决上述技术问题采取的技术方案是:
S1.构建特征拼接网络。
S2.构建场景图更新模块。
S3.结合S1中的特征拼接网络、S2中的场景图更新模块构建基于场景图更新与特征拼接的图像字幕生成网络架构。
S4.基于场景图更新与特征拼接的图像字幕生成网络的训练和字幕生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111283716.3/2.html,转载请声明来源钻瓜专利网。