[发明专利]一种基于时空记忆注意力的图像描述方法有效
| 申请号: | 201911384977.7 | 申请日: | 2019-12-28 |
| 公开(公告)号: | CN111144553B | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 徐骋;冀俊忠;张晓丹 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06N3/0442 | 分类号: | G06N3/0442;G06N3/0464;G06N3/0455;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 时空 记忆 注意力 图像 描述 方法 | ||
本发明公开了一种基于时空记忆注意力的图像描述方法,步骤(1)获取MS COCO图像描述数据集并预处理;步骤(2)构建编码器模型,对编码器模型进行预训练,完成MS COCO图像数据I的编码,得到图像特征V;步骤(3)构建解码器,对图像特征V进行解码;步骤(4)模型训练。本方法搭建的模型在原有的注意力模型中采用长短时记忆网络中门控制和记忆。相比较于传统的注意力模型,时空记忆注意力模型中新添加了一个记忆矩阵,用于动态地存储过去时刻注意力特征,并在在输入门、输出门、遗忘门的控制作用下不断自我更新,最终输出时序空间上相关的注意力特征。基于STMA模型,本方法不仅在图像关注的位置上更为准确,图像描述结果更加准确。
技术领域
本发明属于计算机视觉和自然语言处理的交叉研究领域,具体地说,本发明设计了一种基于时空记忆注意力的图像描述方法。
背景技术
图像描述,简而言之就是用一句话描述图像中的主要内容,这需要机器有对图像内容的理解能力以及与人类相似的内容表达能力。图像描述是连接计算机视觉和自然语言处理两个研究领域的难题,确定图像中物体对象的存在、属性和关系已非易事,用合适的语句描述这些信息使这项任务变得更加困难。如何用流畅的语句,准确地描述图像中的内容是图像描述领域的研究目标。图像描述的研究与发展依赖于计算机视觉、自然语言处理技术的进步,也有助于带动计算机视觉、自然语言处理等相关领域的发展,更加有助于推动人工智能相关应用的实现,例如视觉障碍辅助、视觉语音导航、智能聊天机器人、幼儿教育以及医学报告自动生成等等。
最初的图像描述研究受限于计算能力、模型方法、数据大小等原因,对图像的描述范围进行了限定,直到最近才提出生成更加通用、实际的生活图像的描述。图像描述的早期工作主要沿着基于检索和基于模板两个研究方向,然而这两类方法通常利用训练数据集中的现有描述或依赖于语言结构模板来完成图像描述任务,导致图像描述不够灵活,描述质量在很大程度上受到了限制。近几年,由于计算机硬件计算能力的提高,数据量的爆发式增长,深度神经网络技术得到了发展,在计算机视觉、自然语言处理等研究领域表现出巨大的应用前景。强大的深度神经网络为视觉和语言建模提供了有效的解决方案,基于深度神经网络的编码器-解码器框架方法使图像描述取得了巨大的进步。
目前,基于编码器-解码器框架的方法一般先使用编码器模型提取图像中的特征,再由解码器模型从编码特征中逐步解码生成描述语句。这类方法通常先采用卷积神经网络(Convolutional Neural Network,CNN)作为编码器对图像进行特征编码,再使用循环神经网络(Recurrent Neural Network,RNN)对特征解码生成描述语句。其中,结合注意力模型的编码器-解码器图像描述方法也成为该类方法中的主流方法。注意力机制(AttentionMechanism)源于对人脑视觉的研究,由于信息处理的瓶颈,人脑会选择性地关注所有信息的一部分,同时忽略其他可见的信息。基于注意力机制构建的模型结构称为注意力模型,该模型的引入让解码器具有重点关注部分编码特征的能力,即关注原图像中的局部区域,促进了图像描述方法的巨大进步,但是目前引入的注意力模型中也存在着问题。
一般认为语言描述是一种时序表示,而目前图像描述方法在结合的注意力模型仅实现了对图像空间特征进行提取,忽视了语言表达中的时序性,即每一时刻注意力模型获得的注意力特征在时序上相互独立,这与人类观察事物的过程存在区别,直接造成注意力特征获取的不够准确,阻碍了图像描述效果的进一步提高。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911384977.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可控震源反力实时调节系统及其调节方法
- 下一篇:一种电池高温报警系统





