[发明专利]一种基于结构化语义嵌入的图像内容自动描述方法有效
申请号: | 201711493993.0 | 申请日: | 2017-12-31 |
公开(公告)号: | CN108171283B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 纪荣嵘;陈福海;苏劲松 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06K9/72 | 分类号: | G06K9/72;G06N3/04 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于结构化语义嵌入的图像内容自动描述方法,涉及图像内容理解领域。包括以下步骤:获取文本解析树;构建视觉解析树;嵌入视觉解析树。通过对图像进行语义解析获得视觉语义结构树,获取关键的实体以及它们之间的关系,通过新的结构化的语义嵌入方法将关键的实体和它们的关系嵌入到神经解码器模型中,来引导文本的生成。解决了图像内容自动描述任务中注意模型的关键实体以及实体之间的关系被忽视的问题。在多数指标上都优于其他的方法,生成的图像内容的描述也比最流行的方法更为准确。 | ||
搜索关键词: | 一种 基于 结构 语义 嵌入 图像 内容 自动 描述 方法 | ||
步骤1获取文本解析树;
步骤2构建视觉解析树;
步骤3嵌入视觉解析树。
2.如权利要求1所述一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于在步骤1中,所述获取文本解析树的具体方法为:通过现成最佳的解析工具包,Stanford Parser,获得文本解析树,按照主语在左叶子结点,宾语在右叶子结点,谓语在父结点,仅保留名词、动词、动词介词短语、介词、连词这四个的原则,对文本解析树进行重塑,获得三层全二叉树形式的文本解析树,保留高频出现的词,实体或关系,对其他在文本解析树中出现的词都用特殊符号“null”替换。
3.如权利要求1所述一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于在步骤2中,所述构建视觉解析树的具体方法为:构建一个三层全二叉树结构的视觉解析树模型,每个叶子结点表示视觉的一个实体,每个父结点表示两个实体或子关系之间的关系,在特征表示层面,每个结点都为一个特征向量,其中叶子结点向量为实体的特征表示,父结点向量为关系的特征表示;所述视觉解析树中节结点特征向量通过语义映射器、结合器和分类器操作获取。
4.如权利要求3所述一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于所述通过语义映射器获取实体的语义特征表示的具体方法为:采用CNN对图像进行深度视觉特征提取,然后将深度视觉特征做四种线性变换对应到四个实体上,四个实体对应三层全二叉树的四个叶子结点,经过一个非线性函数映射到四个实体的语义空间上,得到四个实体的语义特征表示。5.如权利要求3所述一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于通过结合器获取关系的语义特征表示的具体方法为:在全二叉树中,两个孩子结点的语义特征向量在结合器中被串联在一起并经过一次非线性变换得到与孩子结点维度相同的父结点语义特征向量,即关系语义特征,得到整个视觉解析树中每个结点的特征表示。6.如权利要求3所述一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于通过分类器指导视觉解析树结构参数的训练阶段优化与预测阶段类别生成的具体方法为:使用步骤1中获得的文本解析树对视觉解析树的构建进行指导,进而实现语义映射器、结合器和分类器的参数优化,首先以文本解析树中的每个结点的词作为视觉解析树中对应位置的类别标签,所述类别为实体类别或关系类别;然后在模型训练阶段,基于每个结点的特征映射到类别空间并计算分类损失,通过损失反向传递来优化整个视觉解析树的参数;最后在预测阶段,利用优化的参数对每个图像的深度视觉特征进行解析,获得每个结点的类别标签。7.如权利要求1所述一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于在步骤3中,所述嵌入视觉解析树的具体方法为:(1)视觉解析树模型作为初始化编码器嵌入到深度编码器‑解码器模型中,视觉解析树的根结点表示全局的视觉语义结构,利用视觉解析树模型对一个图像的深度视觉特征进行解析后,得到根结点的语义特征向量,将这一过程作为一个初始化编码过程并将该根节点的语义特征向量作为深度解码器初始状态的输入;
(2)采用结构化注意模型将视觉解析树的每个结点嵌入到深度解码器模型中,对于深度解码器,一开始输入的结构化语义信息可能在生成每个词的过程中被丢失,在深度解码器生成每个词的过程中将视觉解析树的每个结点嵌入到每个状态的LSTM上来指导当前词的生成,首先计算每个结点特征向量与前一状态LSTM输出的隐特征向量之间的相关度;然后将每个结点特征向量按照对应的相关度加权求平均,获得带注意的特征向量;最后将带注意的特征向量与前一状态LSTM输出的隐特征向量进行串联并经过一次非线性变换获得新的隐特征向量,作为当前状态LSTM的输入,由此循环来指导不同状态词的生成,直到生成终止符号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711493993.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种黑板笔迹自动合成方法
- 下一篇:一种发卡机