[发明专利]一种基于区域注意力学习机制的视觉关系检测方法有效
| 申请号: | 202010079031.6 | 申请日: | 2020-02-03 |
| 公开(公告)号: | CN111325243B | 公开(公告)日: | 2023-06-16 |
| 发明(设计)人: | 刘安安;田宏硕;徐宁;聂为之;宋丹 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06V20/70 | 分类号: | G06V20/70;G06V10/764;G06V10/80;G06V10/774;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 区域 注意力 学习 机制 视觉 关系 检测 方法 | ||
1.一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述方法包括:
获取三元组图结构,并将其聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构;
将第二图结构节点特征与对应三元组实体对象节点的特征进行组合,组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;
在一定消息传播次数之后,输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词;
所述获取三元组图结构具体为:
将实体对象的区域视觉特征作为第一图结构中节点集特征,实体对象之间依据共现概率连接,通过消息传播机制汇聚邻节点的特征信息来强化当前节点的视觉表征;
每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征;
将提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点,依据视觉关系的统计概率连接,构成三元组图结构;
所述第一图结构具体为:将共现矩阵作为第一图结构的边,将区域视觉特征作为第一图结构的顶点;
所述三元组图结构具体为:
将输出的视觉关系分布{ε'ij(k)}作为三元组图结构的边;
Etriplet={ε'ij(k)|k=1,2,...,|K|}
其中,Etriplet表示三元组图结构的边集;K表示训练集中视觉关系或者是谓词的类别总数;ε'ij(k)表示第i类实体对象和第j类实体对象存在第k种视觉关系的概率;
将输出的每个对象组特征Fu={fij|i,j=1,2,...,|N|}以及对应的两个实体对象的区域视觉特征f(n)={fm(n)}作为三元组图结构的顶点:
其中,Vtriplet表示三元组图结构的顶点集;fij表示覆盖第i个实体对象和第j个实体对象的最小矩形框区域内的特征;fm(n)表示第n个实体对象内部的第m个区域;M表示实体对象内部区域的数量;N为图像中实体对象的个数;
从而构造K个三元组图结构
2.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征具体为:
将强化后的节点表征与每个区域视觉特征相结合,计算一个非正则化的相关性分数;
将非正则化的相关性分数进行正则化,获取视觉注意力机制的权重分布值;
利用得到的注意力机制的权重对每个实体对象M个区域特征进行加权求和,得到融合后的视觉表征;
获取融合后的视觉表征,将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征,再次进行消息传播。
3.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述第二图结构具体为:
获取输出的每个三元组图结构聚合邻节点后的特征,将其映射到相同维度的特征空间,然后在特征维度上进行连接,作为第二图结构中的节点;
将第二图结构的节点进行全连接,连接每个节点与其邻节点的边为等概率边。
4.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征具体为:
组合后的特征与输出的每个区域视觉特征计算一个非正则化的相关性分数;
将非正则化的相关性分数进行正则化,分别得到视觉注意力机制的权重分布值,对相应的实体对象区域特征进行加权求和,得到融合后的视觉表征。
5.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合具体为:
将经过Tk次消息传播后三元组图结构每个实体对象的节点输出,进行平均池化后与实体对象本身的视觉特征在特征维度上进行组合;
将经过Tk次消息传播后三元组图结构中对象组的节点输出,与初始化节点的对象组特征以及第二图结构每个节点的输出在特征维度上进行连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010079031.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无线通信中的调度方法和装置
- 下一篇:主控设备的业务接口监控系统及其方法





