[发明专利]一种基于自适应聚类学习的视觉关系检测方法有效
申请号: | 201911341230.3 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111125406B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 刘安安;王彦晖;徐宁;聂为之 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/55 | 分类号: | G06F16/55;G06F16/583;G06V10/762 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 学习 视觉 关系 检测 方法 | ||
本发明公开了一种基于自适应聚类学习的视觉关系检测方法,包括:从输入图像中检测视觉实体并通过上下文信息传递机制识别视觉实体,获得视觉实体上下文表征;将成对视觉实体上下文表征统一低维嵌入联合子空间中,获取视觉关系共享表示特征;将成对视觉实体上下文表征分别低维嵌入多个不同聚类子空间中,获取多个初步视觉关系增强表示特征;通过聚类驱动的注意力机制对不同聚类子空间的多个初步视觉关系增强表示特征进行正则化;将视觉关系共享表示特征,正则化后的视觉关系增强表示特征与视觉关系谓词类别标签的先验条件分布融合,对视觉关系谓词进行综合关系推理。本发明通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别,提高了视觉关系检测的精度。
技术领域
本发明涉及视觉关系检测领域,尤其涉及一种基于自适应聚类学习的视觉关系检测方法。
背景技术
视觉关系检测任务旨在检测和定位图像中出现的成对相关视觉实体并推理视觉实体之间存在的视觉关系谓词或交互方式[1]。如图1所示,视觉关系不仅可以捕捉“人”和“笔记本电脑”的空间和语义信息,并且需要预测二者之间“看”这一动作。由于其结构化描述的特点与丰富的语义空间,视觉关系检测能够推动多种高层级的视觉任务的发展,如复杂查询条件下的图像检索任务[2]、图像内容描述任务[3]、视觉推理任务[4][5]、图像生成任务[6]以及视觉问答任务[7][8]。
得益于近年来深度学习技术的快速发展,视觉关系检测领域里取得了非常有潜力的进展。早期视觉关系检测任务采用的是视觉短语的定义[9],它将视觉实体对与视觉关系谓词联合看作一个预测的类别。然而这种方法缺乏鲁棒性,严重依赖于充分的训练数据,因此应用于大规模的视觉关系检测时效果不佳。近年来,研究者提出将视觉实体检测和视觉关系谓词检测分离为不同的分支,从利用潜在语义先验知识与丰富的上下文视觉信息两个方面入手。
利用潜在语义先验知识的方法包括:利用从大规模视觉关系训练标注和公开文本语料库中得到的语言知识用于视觉关系谓词推理[10]。
利用丰富的上下文视觉信息的方法包括:利用视觉实体与视觉关系谓词之间视觉表征,空间位置与统计依赖进行上下文建模[11],提出基于循环神经网络的上下文消息传递机制来融合上下文视觉特征[12],采用长短时记忆网络对全局上下文信息进行编码用于视觉关系谓词推理[13]。
视觉关系检测领域目前存在以下问题:
1、现有方法大多忽略了不同视觉关系之间的关联信息:现有方法没有充分挖掘不同视觉关系之间存在的潜在关联视觉模式,而是在统一的联合子空间中对所有视觉关系进行识别。
2、视觉关系之间的关联信息挖掘存在困难:由于视觉关系检测包含一对相关视觉实体检测与连接视觉关系谓词的检测,视觉关系建模复杂度远高于常见的视觉动作建模[14]和视觉目标建模。
发明内容
本发明提供了一种基于自适应聚类学习的视觉关系检测方法,本发明避免了在统一视觉关系空间对视觉关系建模而忽略了视觉关系之间潜在的关联信息,能够通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别,提高了视觉关系检测的精度,并且可以应用于任何视觉关系数据库,详见下文描述:
一种基于自适应聚类学习的视觉关系检测方法,所述方法包括:
从输入图像中检测视觉实体并通过上下文信息传递机制识别视觉实体,获得视觉实体上下文表征;
将成对视觉实体上下文表征统一低维嵌入联合子空间中,获取视觉关系共享表示特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911341230.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种石墨烯电池负极材料的制备方法
- 下一篇:渗锌速度快的粉末渗锌剂的使用方法