[发明专利]一种基于结构化语义嵌入的图像内容自动描述方法有效
申请号: | 201711493993.0 | 申请日: | 2017-12-31 |
公开(公告)号: | CN108171283B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 纪荣嵘;陈福海;苏劲松 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06K9/72 | 分类号: | G06K9/72;G06N3/04 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结构 语义 嵌入 图像 内容 自动 描述 方法 | ||
一种基于结构化语义嵌入的图像内容自动描述方法,涉及图像内容理解领域。包括以下步骤:获取文本解析树;构建视觉解析树;嵌入视觉解析树。通过对图像进行语义解析获得视觉语义结构树,获取关键的实体以及它们之间的关系,通过新的结构化的语义嵌入方法将关键的实体和它们的关系嵌入到神经解码器模型中,来引导文本的生成。解决了图像内容自动描述任务中注意模型的关键实体以及实体之间的关系被忽视的问题。在多数指标上都优于其他的方法,生成的图像内容的描述也比最流行的方法更为准确。
技术领域
本发明涉及图像内容理解领域,尤其是涉及一种基于结构化语义嵌入的图像内容自动描述方法。
背景技术
图像内容自动描述(image captioning),即用自然语言对图像的内容进行自动的描述。由于图像内容自动描述有着广泛的应用前景,如人机交互和导盲系统,近来成为计算机视觉和人工智能领域一个新的焦点。与图像分类或物体检测不同,图像自动描述以对对象、场景及其关系的全面描述为目标,涉及视觉场景解析,内容语义理解以及自然语言处理,是混合任务中尖端技术的集成设计。
针对图像内容自动描述主要采用神经编码器-解码器框架,其中神经编码器采用深度卷积网络(Convolutional Neural Network,简称CNN)提取图像的高层语义特征。神经解码器采用长短期记忆神经网络(Long Short-Term Memory,简称LSTM)将图像的高层语义特征转化为文本每个词的输出,如专利《INTELLIGENT IMAGE CAPTIONING(美国专利US:201615166177:A)》。然而,这样一个“黑箱”过程缺少足够的高层语义线索来引导句子的生成,甚至很难在高层语义空间被解释。为了解决这个问题,最近的工作大多引入了注意模型,如专利《一种基于视觉注意模型的图像文字描述方法(中国专利CN201611207945.6)》。该方法利用视觉上检测的所有实体作为语义线索,加强视觉语义内容与文本生成之间的关联。然而,这样做法忽视了关键实体以及实体之间的关系,在描述图像主要内容上缺少判别性。
总而言之,现有技术存在如下缺陷:第一,现有技术缺少足够的高层语义线索来引导句子的生成,而且也难以解释这个“黑箱”过程中不同部分的特征所表示的含义;第二,现有技术引入注意模型并利用视觉上检测的所有实体作为语义线索,这一方面忽视了关键实体,而正常情况下不可能用自然语言描述一幅图像中的所有内容,因此这些技术在描述图像主要内容上容易产生干扰,缺少判别性。另一方面这些技术忽视了实体之间的关系,而实体之间的关系这就好比语言中主语和宾语之间的谓语,对整个语义结构和语义内容的表示具有重要的引导作用。因此本发明提出一种基于结构化语义嵌入的图像内容自动描述方法,通过对图像进行语义解析获得视觉语义结构树,获取关键的实体以及它们之间的关系,通过新的结构化的语义嵌入方法将关键的实体和它们的关系嵌入到神经解码器模型中,来引导文本的生成。
发明内容
本发明的目的是针对图像内容自动描述任务中注意模型的关键实体以及实体之间的关系被忽视的问题,提供一种基于结构化语义嵌入的图像内容自动描述方法。
本发明包括以下步骤:
步骤1获取文本解析树;
步骤2构建视觉解析树;
步骤3嵌入视觉解析树。
在步骤1中,所述获取文本解析树的具体方法可为:
通过现成最佳的解析工具包,Stanford Parser,来获得文本解析树,按照主语在左叶子结点,宾语在右叶子结点,谓语在父结点,仅保留名词、动词、动词介词短语、介词、连词这四个的原则,对文本解析树进行重塑,获得三层全二叉树形式的文本解析树,保留高频出现的词(实体或关系),对其他在文本解析树中出现的词都用特殊符号“null”替换。
在步骤2中,所述构建视觉解析树的具体方法可为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711493993.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种黑板笔迹自动合成方法
- 下一篇:一种发卡机