[发明专利]一种基于全局与局部注意力机制的图像标题生成方法有效
申请号: | 202010214091.4 | 申请日: | 2020-03-24 |
公开(公告)号: | CN111444367B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 刘海波;杨喜;沈晶;卢越;白玉;姜生;田乔;林森 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 全局 局部 注意力 机制 图像 标题 生成 方法 | ||
本发明属于计算机视觉、深度学习和自然语言处理技术领域,具体涉及一种基于全局与局部注意力机制的图像标题生成方法。本发明在初始阶段不仅利用到了图像的局部特征,还利用到了图像的全局特征,以编码器‑解码器为基本框架,在编码阶段利用卷积神经网络提取图像的全局特征和局部特征,在解码阶段使用LSTM和注意力机制,利用全局特征和局部特征动态选择图像的空间特征进行解码生成图像标题。
技术领域
本发明属于计算机视觉、深度学习和自然语言处理技术领域,具体涉及一种基于全局与局部注意力机制的图像标题生成方法。
背景技术
图像与标题的理解一直是人工智能最为重要的研究方向之一,图像和标题分别是视觉和语言的重要组成部分,视觉和语言是理解现实世界的人类智慧的两个核心部分,同时也是实现人工智能的基本组成部分,并且在每个领域已经进行了数十年的大量研究。近年来,随着深度学习的广泛应用,图像与标题理解,譬如图像识别、目标检测和文本分类等,已经取得了长足发展。随着互联网的发展,越来越多的像图像和标题等多模态信息共同出现。例如,微博上的图片和评论,微信上的聊天信息和图像,人民日报的标题和图片等。如何从这些多模态信息中挖掘出它们之间的关系,进而完成图像与文本匹配、图像标题生成和视觉问答等任务,已经成为重要的研究方向。
图像的标题生成研究是近几年来一种新型的计算机视觉任务,图像的标题生成就是给定一张图像,让计算机自动地生成一句自然语言来描述所给定图像的内容。它很好的结合了计算机视觉领域和自然语言处理领域。图像和标题作为两种不同的模态信息,它们在语义层面上就有不同的表现形式,标题信息代表人的语言,其中更是包含高级语义信息。从视觉到语言的生成过程,通俗的表示为,我们希望计算机根据图像生成描述图像的自然语言,与传统的计算机视觉任务相比,图像的标题生成不仅仅需要计算机能够理解图像中包含的所有对象,还需要计算机将所有对象之间的联系通过自然语言正确描述出来。由于这个原因,图像的标题生成研究在计算机视觉领域和自然语言处理领域一直是个难题。
在已有的文献中效果较好的方法主要包括:1.引入注意力机制:Xu K,Ba J,KirosR,et al.Show,attend and tell:Neural image caption generation with visualattention[C].International conference on machine learning.2015:2048-2057,提出soft Attention和hard Attention来学习描述图像内容,在较低卷积层提取图像特征,在解码阶段结合注意力机制动态选择图像的空间特征;2.采用time-dependent gLSTM方法关注文本描述,Zhou L,Xu C,Koch P,et al.Watch what you just said:Image captioningwith text-conditional attention[C].Proceedings of the on Thematic Workshopsof ACM Multimedia 2017.ACM,2017:305-313,使文本信息改善局部注意力加强模型的效果;3.采用自下而上和自上而下的组合注意力机制,Anderson P,He X,Buehler C,etal.Bottom-up and top-down attention for image captioning and visual questionanswering[C].Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2018:6077-6086,可以在对象和其他显著的图像区域水平上计算注意力,其中自下而上机制采用R-CNN提取图像区域特征,自下而上机制确定图像特征权重;4.提出引导对象(CGO)生成图像标题方法,Zheng Y,Li Y,Wang S.Intention OrientedImage Captions with Guiding Objects[J].arXiv preprint arXiv:1811.07662,2018,当对象在图像中时,CGO将模型约束为涉及人类关注对象,将描述的能力扩展到图像标题标签中被忽略的对象。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010214091.4/2.html,转载请声明来源钻瓜专利网。