[发明专利]一种基于超关系学习网络的场景图生成方法有效

申请号：	202110309285.7	申请日：	2021-03-23
公开（公告）号：	CN113065587B	公开（公告）日：	2022-04-08
发明（设计）人：	俞俊;陈志;刘晓鹏;张健;张驰;詹忆冰	申请（专利权）人：	杭州电子科技大学;人民日报社
主分类号：	G06V10/764	分类号：	G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于关系学习网络场景生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于超关系学习的场景图生成方法，其特征在于：

构建超关系学习网络，超关系学习网络包括目标框生成网络、目标分类网络和关系预测网络；超关系学习网络首先通过目标框生成网络得到目标框；然后目标分类网络基于目标之间的相互作用，使用自注意力机制预测每个目标的位置和类别；最后在关系预测网络中，先将两个被检测的目标组成一个关系对，其次通过目标-关系注意力网络使目标和关系交互，使用超关系注意力网络探索目标-关系的传递推理；具体的：

步骤(1)、构建目标框生成网络

使用Faster R-CNN作为目标框生成网络；给定一幅图像I，目标框生成网络生成目标框的集合B＝{b_i}，i∈[N]；对于每个目标框b_i，目标框生成网络提供一个空间特征p_i∈R⁹、一个视觉特征和一个目标类别概率空间特征p_i包括相对边界的目标框坐标目标框的中心坐标和相对比例其中(x_i1，y_i1)，(x_i2，y_i2)是目标框b_i的左上角和右下角的坐标；w和h是图像I的宽和高；d_v表示视觉特征的维度；c₀+1是目标的类别总数，其中包括一个背景类；R⁹表示一个9维的实数矩阵；表示d_v维度的实数矩阵；

步骤(2)、构建目标分类网络

使用自注意力机制预测每个目标的位置和类别，选择自注意力网络是因为自注意力机制能对输入的目标的交互进行建模；

步骤(3)、构建关系预测网络

先将两个被检测的目标组成一个关系对，其次通过目标-关系注意力网络使目标和关系交互，使用超关系注意力网络探索目标-关系的传递推理；

步骤(4)、对超关系学习网络模型进行训练

将图像标注的真实目标类别和目标分类网络预测的64个目标类别，放入softmax交叉熵损失中计算损失；并计算真实目标框和预测目标框的回归损失，由L2损失计算；将给定的真实关系和预测得到的256个预测关系，放入二值交叉熵损失中计算损失；并利用反向传播算法对超关系学习网络模型中目标分类网络和关系预测网络的各个参数进行梯度回传，不断优化，直至整个超关系学习网络模型收敛；

步骤(2)所述的构建目标分类网络，具体如下：

2-1、目标初始化

假设给定一个目标框集合B＝{b_i}，i∈[N]，那么目标o_i的初始化特征x_i通过融合视觉特征目标类别概率和空间特征p_i而成，这些特征均从相对应的目标框b_i得到，所以目标o_i的特征x_i表示为：

其中FC_o(*)＝W_o(*)+b_o表示一个线性变换函数，W_o和b_o分别是权重矩阵的偏置；σ表示一个非线性变换函数，使用ReLU函数；”||”表示连接符号；Emb_o(*)是基于预先训练好的word2vec模型的词嵌入参数；

2-2、使用目标自注意力网络进行目标的交互

输入目标的特征集合为其中d_o是目标的特征集合X的特征维度，N表示特征集合X中目标的个数；使用一个自注意力网络去更新目标特征的过程表示为：

X′＝FFN_o(SA_o(X)) (2)

其中X′表示更新后的目标的特征集合；SA_o(*)就是进行目标之间交互的一个自注意力网络；这个自注意力网络被定义为：

其中Q_o(*)、K_o(*)、V_o(*)是三个同维度的线性变换函数，分别表示自注意力机制过程中的query、key、value；是Q_o(*)和K_o(*)输出的维度，则是一个比例因子；FFN_o(*)是一个由两个全连接层组成的前馈神经网络：

自注意力网络中采用了多头的策略，同时还使用残差连接和归一化的方式添加到每个自注意力网络和前馈神经网络中，即：

X＝X+LN(Fun(X)) (5)

其中，公式(5)右边的X是输入的目标的特征集合，公式(5)左边的X表示经过一轮残差连接和归一化处理后的特征集合，LN(*)表示层归一化方法，Fun(*)代表的是每一个注意力网络或者前馈神经网络；

2-3、目标分类

在经过自注意力网络后，最后使用交叉熵损失函数进行目标分类；

步骤(3)所述的构建关系预测网络，具体如下：

3-1、目标和关系的初始化

在经过目标分类网络后，已知有N个被检测的目标类别O＝(o_i)和N个被检测到的目标框B＝{b_i}，i∈[N]；那么目标o_i的特征就可以初始化为：

其中，和分别是目标o_i的视觉特征和空间特征，是目标分类网络中经过最后一层自注意力网络得到的语义特征；Emb_r(l′_i)是基于目标分类网络中预测每一个类别l′_i的词嵌入向量，并且它是一个one-hot向量；

任意两个目标o_i和o_j的关系框v_ij的特征表示为：

其中，FC_v3，FC_v1，FC_v2均表示线性变换函数；y_i表示目标o_i经过初始化后的特征，y_j表示目标o_j经过初始化后的特征；

3-2、目标-关系注意力网络

记经过步骤3-1初始化后目标的特征集合关系的特征集合为d_r是每一个关系的特征维度；使用目标-关系注意力网络在关系和目标之间进行交互之后就能将信息在关系和目标之间进行传递；

首先，目标-关系注意力网络将信息从关系传递到目标来更新目标的特征，这个过程表示为：

Y′＝FFN_r1(MA_r1(Y，Z，M_r1)) (8)

其中，Y′就是被更新之后目标的特征集合，FFN_r1是一个由两个全连接层组成的前馈神经网络；MA_r1(*)是一个带掩盖的注意力网络，而这个掩盖注意力网络表示为：

其中，M_r1就是一个N×N²的掩盖函数，它的作用就是让关系的特征集合Z中只和目标的特征集合Y有关的关系向目标的特征集合Y传递信息，其他的关系不向该目标传递信息；与公式(3)类似，Q_r1(*)是对目标的特征集合Y的线性变换函数，K_r1(*)和V_r1(*)是对关系的特征集合Z的线性变换函数，则是目标和关系特征集合的一个比例因子；

然后，目标-关系注意力网络再通过更新特征之后的目标向关系传递信息去更新关系的特征集合，这个信息传递的过程表示为：

Z′＝FFN_r2(AT_r2(Y′，Z)) (10)

其中Z′是被更新之后的关系特征集合，FFN_r2(*)是一个由两个全连接层组成的前馈神经网络，AT_r2(*)是一个注意力网络，该网络表示为：

而从目标到关系传递信息的注意力网络不需要掩盖函数，是将所有目标的信息都传递给每一个关系；类似公式(9)，Q_r2(*)是对关系的特征集合Z的线性变换函数，K_r2(*)和V_r2(*)是对更新后的目标特征集合Y′的线性变换函数，则是关系和目标特征集合的一个比例因子；

通过目标-关系注意力网络这种可选择的自主选择融合方式，既融合了目标的特征也融合了关系的特征，最重要的是还加强了关系和目标之间的相互作用；相比于直接使用关系-关系注意力网络，目标-关系-注意力网络极大的降低了网络的时间复杂度，从N²×N²的时间复杂度降低为N×N²的时间复杂度；

3-3、超关系注意力网络

在经过目标-关系注意力网络的特征融合之后，通过超关系注意力网络整合目标和关系的信息进行传递推理；具体来说，对于一个给定的关系r_ij，超关系注意力网络首先要获得相对应的超关系E_ijk，其中k∈[N]；根据传递推理方法，基于两个目标o_i和o_j的关系以及一个中间目标o_k就可以组成超关系进行从E_ijk到r_ij的传递推理；所以从E_ijk到r_ij的传递推理过程表示为：

其中σ是LeakyReLU函数；其中，超关系表示3个目标o_i，o_j，o_k组成的关系子集；表示目标o_i为主语，目标o_k为宾语的关系对，表示目标o_k为主语，目标o_i为宾语的关系对；表示目标o_j为主语，目标o_k为宾语的关系对；表示o_k为主语，目标o_j为宾语的关系对；通过组成的超关系传递推理关系目标o_i和目标o_j的关机，即关系和关系FC_h(*)表示一个线性变换函数；

使用表示关系集合r_ij的超关系集合，d_h是超关系的特征维度；使用注意力网络去整合超关系集合H_ij并且将信息传递到关系集合r_ij，这个过程可以表示为：

其中FFN_h(*)是一个由两个全连接层组成的前馈神经网络，AT_h(*)是一个关于超关系的注意力网络，定义为：

Q_h(*)是对关系的特征集合Z的线性变换函数，K_h(*)和V_h(*)是对超关系特征集合H_ij的线性变换函数，则是关系和超关系特征集合的一个比例因子；

所述的目标-关系注意力网络和超关系注意力网络均采用多头的策略以及残差连接方式；

3-4、关系预测

在经过了目标-关系注意力网络融合目标和关系的特征以及超关系注意力网络去传递推理关系特征之后，最后去预测关系的类别；在关系预测中，将两个目标的联合框生成的联合特征以及频率偏差添加到关系预测中；在目标-关系注意力网络和超关系注意力网络之后使用联合特征以及频率偏差，主要是因为计算联合特征和频率偏差需要消耗很大的空间，也有很大的时间复杂度；最后使用二值交叉熵损失进行关系预测。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学;人民日报社，未经杭州电子科技大学;人民日报社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110309285.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于模块化识别的基因网络推理方法
下一篇：一种由电磁超材料构成的低电磁扰动原子气室

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于超关系学习网络的场景图生成方法有效

专利文献下载