[发明专利]图片语义描述方法及装置在审
申请号: | 201710837882.0 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107609563A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 杨阳;张明星;姬艳丽;谢宁;申恒涛 | 申请(专利权)人: | 成都澳海川科技有限公司 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06N3/04 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙)11371 | 代理人: | 苏胜 |
地址: | 610000 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 语义 描述 方法 装置 | ||
1.一种图片语义描述方法,其特征在于,所述方法包括:
将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱;
将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征;
将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域;
基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语,以通过所述词语生成用于对所述原始图片进行语义描述的句子。
2.根据权利要求1所述的方法,其特征在于,将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征,包括:
将所述卷积特征图谱输入进区域建议网络,获取多个建议区域的各自对应特征参数,其中,每个建议区域的特征参数包括区域建议框、区域得分及区域特征。
3.根据权利要求2所述的方法,其特征在于,将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域,包括:
基于获取的所述多个建议区域分布对应的区域特征获取对应的权重;
基于所述权重获取所述目标区域。
4.根据权利要求3所述的方法,其特征在于,基于获取的所述多个建议区域分布对应的区域特征获取对应的权重,包括:
将所述区域特征带入eti=fatt(Ri,ht-1),获取所述权重,其中,ati为所述权重,Ri为每个建议区域对应的区域特征,ht-1为语言产生模型的前一时间点的隐含状态。
5.根据权利要求1所述的方法,其特征在于,所述原始图片大小为3×W×H,将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱,包括:
将大小为3×W×H的所述原始图片输入卷积神经网络;
对所述原始图片进行图像编码为大小的卷积特征图谱。
6.一种图片语义描述装置,其特征在于,所述装置包括:
特征图谱获取模块,用于将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱;
建议区域特征获取模块,用于将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征;
目标区域获取模块,将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域;
句子生成模块,基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语,以通过所述词语生成用于对所述原始图片进行语义描述的句子。
7.根据权利要求6所述的装置,其特征在于,所述建议区域特征获取模块,具体用于将所述卷积特征图谱输入进区域建议网络,获取多个建议区域的各自对应特征参数,其中,每个建议区域的特征参数包括区域建议框、区域得分及区域特征。
8.根据权利要求7所述的装置,其特征在于,所述目标区域获取模块包括:
权重获取单元,用于基于获取的所述多个建议区域分布对应的区域特征获取对应的权重;
目标区域获取单元,用于基于所述权重获取所述目标区域。
9.根据权利要求8所述的装置,其特征在于,所述权重获取单元,具体用于将所述区域特征带入eti=fatt(Ri,ht-1),获取所述权重,其中,ati为所述权重,Ri为每个建议区域对应的区域特征,ht-1为语言产生模型的前一时间点的隐含状态。
10.根据权利要求6所述的装置,其特征在于,所述原始图片大小为3×W×H,所述特征图谱获取模块包括:
输入单元,用于将大小为3×W×H的所述原始图片输入卷积神经网络;
编码单元,用于对所述原始图片进行图像编码为大小的卷积特征图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都澳海川科技有限公司,未经成都澳海川科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710837882.0/1.html,转载请声明来源钻瓜专利网。