[发明专利]图片语义描述方法及装置在审
申请号: | 201710837882.0 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107609563A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 杨阳;张明星;姬艳丽;谢宁;申恒涛 | 申请(专利权)人: | 成都澳海川科技有限公司 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06N3/04 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙)11371 | 代理人: | 苏胜 |
地址: | 610000 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 语义 描述 方法 装置 | ||
技术领域
本发明涉及图像处理领域,具体而言,涉及一种图片语义描述方法及装置。
背景技术
随着社交网络的蓬勃发展,社交媒体上海量的图片数据已经成为一个巨大的社会情况研究资源。这些数据对于图片检索,数据挖掘研究有着显著的帮助,同时还可以帮助研究社会热点事件以及社会学和人类学,如何获取图片上的有效信息成为了一个值得关注的问题。
伴随深度学习网络的发展,现有技术中主要针对端到端的图片语义获取。这可以从卷积神经网络到循环神经网络方法(CNN-RNN)的发展说起,卷积神经网络可以获取图像的计算机视觉数据(人类并不能直接理解),再把视觉数据传到循环神经网络则可以产生人类语言。但是把图像整体一次性编码到卷积网络中会限制信息获取的能力,因为在这个过程中一些特定的目标会被忽视,导致计算机不能够理解到图像的一些细节。
人类视觉注意机制是认知过程中的重要一环。相比于只注视图像的全局信息,人类的视觉可以自动的关注到图像的重要部分,而忽视掉一些无关紧要的部分。利用这个机制,一些研究人员在CNN-RNN方法下提高了语义句子的质量,采用的方法是将图片划分为固定的格子,学习网络利用格子里面的信息去获取不同语义,但是这种方法导致学习网络很难准确识别不同位置不同大小的各种语义对象,从而无法对图片进行准确的语义描述。
发明内容
有鉴于此,本发明实施例的目的在于提供一种图片语义描述方法及装置,以改善上述问题。
第一方面,本发明实施例提供了一种图片语义描述方法,所述方法包括:将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱;将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征;将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域;基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语,以通过所述词语生成用于对所述原始图片进行语义描述的句子。
进一步地,将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征,包括:将所述卷积特征图谱输入进区域建议网络,获取多个建议区域的各自对应特征参数,其中,每个建议区域的特征参数包括区域建议框、区域得分及区域特征。
进一步地,将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域,包括:基于获取的所述多个建议区域分布对应的区域特征获取对应的权重;基于所述权重获取所述目标区域。
进一步地,基于获取的所述多个建议区域分布对应的区域特征获取对应的权重,包括:将所述区域特征带入eti=fatt(Ri,ht-1),获取所述权重,其中,ati为所述权重,Ri为每个建议区域对应的区域特征,ht-1为语言产生模型的前一时间点的隐含状态。
进一步地,所述原始图片大小为3×W×H,将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱,包括:将大小为3×W×H的所述原始图片输入卷积神经网络;对所述原始图片进行图像编码为大小的卷积特征图谱。
第二方面,本发明实施例提供了一种图片语义描述装置,所述装置包括:特征图谱获取模块,用于将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱;建议区域特征获取模块,用于将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征;目标区域获取模块,用于将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域;句子生成模块,用于基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语,以通过所述词语生成用于对所述原始图片进行语义描述的句子。
进一步地,所述建议区域特征获取模块,具体用于将所述卷积特征图谱输入进区域建议网络,获取多个建议区域的各自对应特征参数,其中,每个建议区域的特征参数包括区域建议框、区域得分及区域特征。
进一步地,所述目标区域获取模块包括:权重获取单元,用于基于获取的所述多个建议区域分布对应的区域特征获取对应的权重;目标区域获取单元,用于基于所述权重获取所述目标区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都澳海川科技有限公司,未经成都澳海川科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710837882.0/2.html,转载请声明来源钻瓜专利网。