[发明专利]一种基于超关系学习网络的场景图生成方法有效
申请号: | 202110309285.7 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113065587B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 俞俊;陈志;刘晓鹏;张健;张驰;詹忆冰 | 申请(专利权)人: | 杭州电子科技大学;人民日报社 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关系 学习 网络 场景 生成 方法 | ||
1.一种基于超关系学习的场景图生成方法,其特征在于:
构建超关系学习网络,超关系学习网络包括目标框生成网络、目标分类网络和关系预测网络;超关系学习网络首先通过目标框生成网络得到目标框;然后目标分类网络基于目标之间的相互作用,使用自注意力机制预测每个目标的位置和类别;最后在关系预测网络中,先将两个被检测的目标组成一个关系对,其次通过目标-关系注意力网络使目标和关系交互,使用超关系注意力网络探索目标-关系的传递推理;具体的:
步骤(1)、构建目标框生成网络
使用Faster R-CNN作为目标框生成网络;给定一幅图像I,目标框生成网络生成目标框的集合B={bi},i∈[N];对于每个目标框bi,目标框生成网络提供一个空间特征pi∈R9、一个视觉特征和一个目标类别概率空间特征pi包括相对边界的目标框坐标目标框的中心坐标和相对比例其中(xi1,yi1),(xi2,yi2)是目标框bi的左上角和右下角的坐标;w和h是图像I的宽和高;dv表示视觉特征的维度;c0+1是目标的类别总数,其中包括一个背景类;R9表示一个9维的实数矩阵;表示dv维度的实数矩阵;
步骤(2)、构建目标分类网络
使用自注意力机制预测每个目标的位置和类别,选择自注意力网络是因为自注意力机制能对输入的目标的交互进行建模;
步骤(3)、构建关系预测网络
先将两个被检测的目标组成一个关系对,其次通过目标-关系注意力网络使目标和关系交互,使用超关系注意力网络探索目标-关系的传递推理;
步骤(4)、对超关系学习网络模型进行训练
将图像标注的真实目标类别和目标分类网络预测的64个目标类别,放入softmax交叉熵损失中计算损失;并计算真实目标框和预测目标框的回归损失,由L2损失计算;将给定的真实关系和预测得到的256个预测关系,放入二值交叉熵损失中计算损失;并利用反向传播算法对超关系学习网络模型中目标分类网络和关系预测网络的各个参数进行梯度回传,不断优化,直至整个超关系学习网络模型收敛;
步骤(2)所述的构建目标分类网络,具体如下:
2-1、目标初始化
假设给定一个目标框集合B={bi},i∈[N],那么目标oi的初始化特征xi通过融合视觉特征目标类别概率和空间特征pi而成,这些特征均从相对应的目标框bi得到,所以目标oi的特征xi表示为:
其中FCo(*)=Wo(*)+bo表示一个线性变换函数,Wo和bo分别是权重矩阵的偏置;σ表示一个非线性变换函数,使用ReLU函数;”||”表示连接符号;Embo(*)是基于预先训练好的word2vec模型的词嵌入参数;
2-2、使用目标自注意力网络进行目标的交互
输入目标的特征集合为其中do是目标的特征集合X的特征维度,N表示特征集合X中目标的个数;使用一个自注意力网络去更新目标特征的过程表示为:
X′=FFNo(SAo(X)) (2)
其中X′表示更新后的目标的特征集合;SAo(*)就是进行目标之间交互的一个自注意力网络;这个自注意力网络被定义为:
其中Qo(*)、Ko(*)、Vo(*)是三个同维度的线性变换函数,分别表示自注意力机制过程中的query、key、value;是Qo(*)和Ko(*)输出的维度,则是一个比例因子;FFNo(*)是一个由两个全连接层组成的前馈神经网络:
自注意力网络中采用了多头的策略,同时还使用残差连接和归一化的方式添加到每个自注意力网络和前馈神经网络中,即:
X=X+LN(Fun(X)) (5)
其中,公式(5)右边的X是输入的目标的特征集合,公式(5)左边的X表示经过一轮残差连接和归一化处理后的特征集合,LN(*)表示层归一化方法,Fun(*)代表的是每一个注意力网络或者前馈神经网络;
2-3、目标分类
在经过自注意力网络后,最后使用交叉熵损失函数进行目标分类;
步骤(3)所述的构建关系预测网络,具体如下:
3-1、目标和关系的初始化
在经过目标分类网络后,已知有N个被检测的目标类别O=(oi)和N个被检测到的目标框B={bi},i∈[N];那么目标oi的特征就可以初始化为:
其中,和分别是目标oi的视觉特征和空间特征,是目标分类网络中经过最后一层自注意力网络得到的语义特征;Embr(l′i)是基于目标分类网络中预测每一个类别l′i的词嵌入向量,并且它是一个one-hot向量;
任意两个目标oi和oj的关系框vij的特征表示为:
其中,FCv3,FCv1,FCv2均表示线性变换函数;yi表示目标oi经过初始化后的特征,yj表示目标oj经过初始化后的特征;
3-2、目标-关系注意力网络
记经过步骤3-1初始化后目标的特征集合关系的特征集合为dr是每一个关系的特征维度;使用目标-关系注意力网络在关系和目标之间进行交互之后就能将信息在关系和目标之间进行传递;
首先,目标-关系注意力网络将信息从关系传递到目标来更新目标的特征,这个过程表示为:
Y′=FFNr1(MAr1(Y,Z,Mr1)) (8)
其中,Y′就是被更新之后目标的特征集合,FFNr1是一个由两个全连接层组成的前馈神经网络;MAr1(*)是一个带掩盖的注意力网络,而这个掩盖注意力网络表示为:
其中,Mr1就是一个N×N2的掩盖函数,它的作用就是让关系的特征集合Z中只和目标的特征集合Y有关的关系向目标的特征集合Y传递信息,其他的关系不向该目标传递信息;与公式(3)类似,Qr1(*)是对目标的特征集合Y的线性变换函数,Kr1(*)和Vr1(*)是对关系的特征集合Z的线性变换函数,则是目标和关系特征集合的一个比例因子;
然后,目标-关系注意力网络再通过更新特征之后的目标向关系传递信息去更新关系的特征集合,这个信息传递的过程表示为:
Z′=FFNr2(ATr2(Y′,Z)) (10)
其中Z′是被更新之后的关系特征集合,FFNr2(*)是一个由两个全连接层组成的前馈神经网络,ATr2(*)是一个注意力网络,该网络表示为:
而从目标到关系传递信息的注意力网络不需要掩盖函数,是将所有目标的信息都传递给每一个关系;类似公式(9),Qr2(*)是对关系的特征集合Z的线性变换函数,Kr2(*)和Vr2(*)是对更新后的目标特征集合Y′的线性变换函数,则是关系和目标特征集合的一个比例因子;
通过目标-关系注意力网络这种可选择的自主选择融合方式,既融合了目标的特征也融合了关系的特征,最重要的是还加强了关系和目标之间的相互作用;相比于直接使用关系-关系注意力网络,目标-关系-注意力网络极大的降低了网络的时间复杂度,从N2×N2的时间复杂度降低为N×N2的时间复杂度;
3-3、超关系注意力网络
在经过目标-关系注意力网络的特征融合之后,通过超关系注意力网络整合目标和关系的信息进行传递推理;具体来说,对于一个给定的关系rij,超关系注意力网络首先要获得相对应的超关系Eijk,其中k∈[N];根据传递推理方法,基于两个目标oi和oj的关系以及一个中间目标ok就可以组成超关系进行从Eijk到rij的传递推理;所以从Eijk到rij的传递推理过程表示为:
其中σ是LeakyReLU函数;其中,超关系表示3个目标oi,oj,ok组成的关系子集;表示目标oi为主语,目标ok为宾语的关系对,表示目标ok为主语,目标oi为宾语的关系对;表示目标oj为主语,目标ok为宾语的关系对;表示ok为主语,目标oj为宾语的关系对;通过组成的超关系传递推理关系目标oi和目标oj的关机,即关系和关系FCh(*)表示一个线性变换函数;
使用表示关系集合rij的超关系集合,dh是超关系的特征维度;使用注意力网络去整合超关系集合Hij并且将信息传递到关系集合rij,这个过程可以表示为:
其中FFNh(*)是一个由两个全连接层组成的前馈神经网络,ATh(*)是一个关于超关系的注意力网络,定义为:
Qh(*)是对关系的特征集合Z的线性变换函数,Kh(*)和Vh(*)是对超关系特征集合Hij的线性变换函数,则是关系和超关系特征集合的一个比例因子;
所述的目标-关系注意力网络和超关系注意力网络均采用多头的策略以及残差连接方式;
3-4、关系预测
在经过了目标-关系注意力网络融合目标和关系的特征以及超关系注意力网络去传递推理关系特征之后,最后去预测关系的类别;在关系预测中,将两个目标的联合框生成的联合特征以及频率偏差添加到关系预测中;在目标-关系注意力网络和超关系注意力网络之后使用联合特征以及频率偏差,主要是因为计算联合特征和频率偏差需要消耗很大的空间,也有很大的时间复杂度;最后使用二值交叉熵损失进行关系预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学;人民日报社,未经杭州电子科技大学;人民日报社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110309285.7/1.html,转载请声明来源钻瓜专利网。