[发明专利]基于MLL和ASCA-FR的图像字幕生成方法有效
申请号: | 201811603384.0 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109711465B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 何立火;李琪琦;高新波;蔡虹霞;路文;张怡;屈琳子;钟炎喆;武天妍 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/764;G06V10/774;G06N3/04;G06N3/08;G06F40/284 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 mll asca fr 图像 字幕 生成 方法 | ||
本发明公开一种基于多尺度学习MLL和相邻时间节点联合注意力机制特征重建ASCA‑FR的图像字幕生成方法,主要解决现有技术中注意力模型在某时刻的输出仅考虑图像的特征集合和前一时刻的单词向量,只使用交叉熵损失函数训练网络所带来的生成字幕描述不准确、表述不流畅的问题。本发明的具体步骤如下:(1)生成自然图像测试集和训练集;(2)提取特征向量;(3)构建ASCA‑FR网络;(4)训练ASCA‑FR网络;(5)获得自然图像字幕;本发明利用MLL损失函数对构建的ASCA‑FR网络进行训练,使得生成的字幕描述准确且表述流畅。
技术领域
本发明属于图像处理技术领域,更进一步涉及自然语言处理技术领域中的一种基于多尺度学习MLL(Multi-level Learning)和相邻时间节点联合注意力机制特征重建ASCA-FR(Adjacent Step Co-Attention and Feature Reconstruction)的图像字幕生成方法。本发明能够提取并处理任意一张自然图像中的语义信息,生成一句对应于该自然图像的图像字幕。
背景技术
针对一张自然图像,人类只需快速浏览一眼便可在大脑中组织生动而形象的语言来描述图像中的视觉场景信息。在人工智能和深度学习技术蓬勃发展的今日,图像字幕生成作为自然语言处理领域中的一项重要研究课题,越来越受到人们的关注。图像字幕生成的任务是为任意自然图像自动生成与其语义信息密切相关的字幕。但是,由于图像中出现的场景复杂多样,能够准确识别出图像中的各个物体本就是一件不易之事,再加上图像字幕生成不仅需要识别图像中的各个目标物体,更需要深度探究目标物体的状态、动作以及目标与目标之间的相互关系,然后用流畅而生动的语言准确描述出来,这些无疑为图像字幕生成带来了巨大的挑战。
中国石油大学(华东)在其申请的专利文献“融合视觉注意力和语义注意力的图像字幕生成方法及系统”(专利申请号:201710806115.3,申请公布号:CN107608943A)中提出了一种融合视觉注意力和语义注意力的图像字幕生成方法。该方法的实现步骤为:通过卷积神经网络CNN(Convolutional Neural Network)从每个待生成字幕的图像中提取图像特征,得到图像特征集合;建立长短期记忆网络LSTM(Long Short-Term Memory),将每个待生成字幕图像对应的预先标注文本描述传入长短期记忆网络LSTM中得到时序信息;建立视觉注意力模型和生成语义注意力模型并构成自动平衡策略模型;利用得到的图像特征集合和输入图像的对应文本建立改进的长短期记忆网络LSTM模型,并基于多层感知机MLP(Multilayer Perceptron)生成若干基于时间流的单词,将这些单词串联成字幕。该方法存在的不足之处是,该方法所使用的视觉注意力模型在输出时,仅考虑了图像的特征集合和前一时刻的生成单词信息,且只利用由图像到字幕的正向生成过程,使得字幕描述准确度低,不能良好的反映图像中的内容。
西安电子科技大学在其申请的专利文献“基于视觉显著性与语义属性跨模态图像自然语言描述方法”(专利申请号:201710560024.6,申请公布号:CN107688821A)中提出了一种基于视觉显著性与语义属性的跨模态图像自然语言描述方法。该方法的实现步骤为:对图像进行子区域划分并用卷积神经网络CNN对图像进行多尺度深度视觉特征提取;将提取的多尺度特征向量输入到预训练好的显著性模型中,回归出图像各子区域的显著性分数,并用全局显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对视觉显著性图像的各子区域进行语义属性检测;采用基于视觉显著性的语义特征初始化网络并利用多示例学习计算语义属性;使用语义属性对图像特征进行加权并采用长短期记忆网络LSTM对基于视觉显著性与语义特征进行解码,生成图像描述。该方法存在的不足之处是,用于训练网络的损失函数只是基于标签字幕的交叉熵损失函数,使得训练过程过于单薄,生成字幕表述不流畅且具有诸多语法错误。
发明内容
本发明的目的在于针对上述现有技术的不足,提出基于多尺度学习MLL和相邻时间节点联合注意力机制特征重建ASCA-FR的图像字幕生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811603384.0/2.html,转载请声明来源钻瓜专利网。