[发明专利]基于Tri-LSTMs模型的图像描述方法有效
申请号: | 201910565977.0 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110288029B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 王爽;侯彪;张磊;孟芸;叶秀眺;田敬贤 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/774;G06V20/70;G06N3/04;G06N3/08 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 tri lstms 模型 图像 描述 方法 | ||
本发明公开了一种基于Tri‑LSTMs模型的图像描述方法,其步骤为:生成训练集并映射词向量,搭建并训练RPN卷积神经网络与Faster‑RCNN卷积神经网络,提取图像全连接层特征,构建并训练Tri‑LSTMs模型,生成图像描述。本发明组合了多个长短时记忆网路LSTM,同时利用了图像的全连接层特征和单词的300维GLOVE词向量,有效提高了生成字幕的多样性,生成了更准确的图像描述。
技术领域
本发明属于图像处理技术领域,更进一步涉及图像描述技术领域中的一种基于Tri-LSTMs模型的图像描述方法。本发明可用于对给定图像生成准确且具有多样性的语句来描述图像的内容。其中,Tri-LSTMs表示由语义LSTM模块、视觉LSTM模块和语言LSTM模块三个模块组成的Tri-LSTMs模型。
背景技术
图像描述是给定一张图像,生成语句来描述图像的内容。生成的语句不仅要流畅,还要能够准确地描述图像中的物体以及物体的属性、位置以及物体之间的关系。生成的图像描述可以用于寻找符合描述内容的图像,便于图像检索。此外,将生成的图像描述转为盲文后,可以帮助盲人理解图像内容。
深圳大学在其拥有的专利技术“一种基于词袋模型的图像描述方法及系统”(专利申请号:201410491596X,授权公告号:CN104299010B)中提出了一种基于词袋模型的图像描述方法。该专利技术主要解决传统方法信息丢失与准确度过低的问题。该专利技术实现步骤为:(1)从待描述图像中提取特征点;(2)计算所述特征点与码书中视觉单词之间的距离集合,并通过高斯隶属度函数、利用所述距离集合获得所述特征点与所述视觉单词之间的隶属度集合;(3)利用所述隶属度集合,统计用于描述每一特征点的所述视觉单词的隶属度,形成直方图矢量,所述直方图矢量用以描述所述待描述图像。该专利技术虽然改进了传统的图像描述技术,描述的准确度更高,但是,该方法仍然存在的不足之处在于,需要人工提取特征点,采用不同的提取方法对结果有很大影响,提取的过程繁杂,且最终生成的图像描述多样性不足。
天津大学在其拥有的专利技术“一种从结构化文本到图像描述的生成方法”(专利申请号:2016108541692,授权公告号:CN106503055B)中提出了一种基从结构化文本到图像描述的生成方法。该专利技术主要解决现有技术生成的图像描述准确度低且多样性不足的问题。该专利技术实现步骤为:(1)从互联网下载图片,构成图片训练集;(2)对训练集中图像对应的描述进行词法分析,构造结构化文本;(3)利用现有的神经网络模型,提取训练集图像的卷积神经网络特征,并以图像特征,结构化文本作为输入,构造多任务识别模型;(4)以训练集中提取的结构化文本和相应描述作为递归神经网络的输入,训练得到递归神经网络模型的参数;(5)输入待描述图像的卷积神经网络特征,通过多任务识别模型得到预测结构化文本;(6)输入预测结构化文本,通过递归神经网络模型得到图像描述。该专利技术虽然改进了改善了生成的图像描述多样性不足的问题,但是,该方法仍然存在的不足之处在于,仅仅使用了图像特征,没有利用其他有效信息对解码过程进行指导,影响最终生成的图像描述的准确度。
Oriol Vinyals等人在其发表的论文“Show and Tell:A Neural Image CaptionGenerator”(cvpr 2015会议论文)中提出基于编码器-解码器模型的图像描述方法。该方法是先利用卷积神经网络(ConvolutionalNeural Network,CNN)提取图像特征,然后送到长短时记忆网络(Long Short-TermMemory,LSTM)中生成图像对应的描述。该方法首次使用编码器-解码器的结构解决图像描述问题,但是,该方法仍然存在的不足之处在于,模型结构过于简单,生成的图像描述不准确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910565977.0/2.html,转载请声明来源钻瓜专利网。