[发明专利]一种提高可控图像文本描述正确性的网络构建方法有效

申请号：	202110110377.2	申请日：	2021-01-27
公开（公告）号：	CN112733866B	公开（公告）日：	2023-09-26
发明（设计）人：	朱虹;张雨嘉;杜森;史静;刘媛媛;王栋	申请（专利权）人：	湖南千里云医疗科技有限公司
主分类号：	G06V10/44	分类号：	G06V10/44;G06F40/242;G06F40/30;G06F18/2415;G06N3/048;G06N3/0442;G06N3/08;G06N3/049
代理公司：	北京鼎德宝专利代理事务所(特殊普通合伙) 11823	代理人：	马冠群
地址：	410000 湖南省长沙市岳麓区***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提高可控图像文本描述正确性网络构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种提高可控图像文本描述正确性的网络构建方法，其特征在于，按照以下步骤实施：

步骤1、构建模型数据集，具体过程是，

1.1)建立数据样本的训练集、验证图像数据的验证集，

选用MSCOCO数据集图像样本和标签作为特征提取网络的数据样本，随机选出MSCOCO数据集的90％作为训练集，剩下的部分图像样本作为验证集的样本，下面统称为样本图像；

1.2)建立控制条件的数据集，

采用ASG生成器给每幅样本图像生成各自的抽象场景图；使用RPN模型来检测每幅图像中的对象节点，属性节点通过自动采样添加到对象节点上；关系节点采用一个简单的分类网络，判断两个物体间是否有关系节点；最后，样本图像的ASG记为G_ks＝(N_ks,E_ks)，ks＝1,2,...,N_s，N_s为数据集中的样本数，其中，样本集合的ASG的节点集合为N_ks＝[node₁^ks,node₂^ks,...,node_Ne^ks]，node_k^ks∈{o,a,r}，k＝1,2,...,Ne，Ne为节点个数，设置每幅样本图像的节点个数为固定值，如果实际提取出的节点数多于Ne，则消除没有关联的孤立节点，或者限制属性节点的个数，如果少于Ne，则将对应的节点置为0；ASG的边集合为E_ks＝[e_i,j]_Ne×Ne，e_i,j∈{0,1}，即两个节点间有关联则为1，两个节点间无关联则为0；

步骤2、提取数据集特征，具体过程是，

2.1)建立描述文本的语义词典，

从样本图像的标注中，选择所有单词中出现频次最高的前m个单词，组成语义概念集合；单词总数m按照不同的文本描述领域和不同的描述准确度要求进行选择，根据MSCOCO数据集和通用要求，单词总数m的取值范围为[10000,12000]，并对每个单词分配一个整数序号，并且在整数序号之后加上三个特殊位：即开始标志位、结束标志位和低频词位，共m+3个整数序号构成词典；

对于训练集中的第ks幅样本图像Y_ks，L_ks是第ks幅图像的文本描述长度，利用前述建立的词典对数据集样本图像进行语义词典标注，标注形式如下：

其中，是第k个单词在文本语义词典中的排序序号，为整数，此时的k＝1,2,...,L_ks；

2.2)提取图像特征，

采用ResNet网络提取样本图像的全局特征，即取卷积网络ResNet中最后一层平均池化层的输出M₁维特征向量描述图像的全局特征g_ks，M₁为2048；

2.3)提取抽象场景图特征，

根据步骤1.2)得到的ASG节点集合N_ks＝[node₁^ks,node₂^ks,...,node_Ne^ks]，node_k^ks∈{o,a,r}，k＝1,2,...,Ne，ks＝1,2,...,N_s，采用Faster-RCNN网络，取Faster-RCNN的全连接fc7层作为图像区域特征，为计算方便起见，区域特征也取为M₁维的特征向量；

设提取的所有节点的区域特征表示为其中，对于node_k^ks＝o的目标节点，其特征为在对应的区域上提取的特征；对于node_k^ks＝a的属性节点，其特征与其连接的对象节点的区域特征相同；对于node_k^ks＝r的关系节点，其特征从涉及到的两个关联目标的联合区域中提取；

步骤3、构建提取重点特征的编码器，具体过程是，

3.1)建立提取图像重点特征网络，

将步骤2.3)得到的区域特征作为输入，经过一个多头注意力机制对不同区域特征进行加权，使得网络关注想要描述的重点部分，得到加权处理后的区域特征再经过AoA模块和层归一化，确定物体间的关联关系最后经过节点嵌入模块将特征与节点属性结合，得到输出

3.2)构建多头注意力模块，

3.2a)将步骤2.3)得到的区域特征分别经过三个不同的线性变换，得到相同维度的查询向量键向量K_k^ks和值向量V_k^ks，线性变换的表达式如下：

其中，W_Q、W_K、W_V是不同随机初始化的映射矩阵，由网络训练得到；

3.2b)将查询向量Q_k^ks、键向量K_k^ks和值向量V_k^ks，分别划分为n₁个M₂＝M₁/n₁维的查询子特征键子特征和值子特征

计算和的相似度得分，表达式如下：

其中，f_sim是计算相似度得分的函数，定义如下：

之后，将相似度得分经过softmax操作，作为加权权重求和，得到空间注意力子特征表达式如下：

最后，将多个子区域的加权特征融合，得到包含注意力权重的区域特征表达式如下：

其中，W^O是线性映射，通过网络训练得到；

3.3)构建AoA模块，

该AoA模块包括两个单独的线性变换，分别生成信息向量f_k^ks和注意力门向量m_k^ks，表达式如下：

其中，分别是网络学习到的二维线性变换权重，b^f、b^m均是一维常数项，σ是sigmoid激活函数；

然后对信息向量f_k^ks和注意力门向量m_k^ks进行点乘运算获得注意力信息特征以便更符合表达物体间依赖关系，表达式如下：

其中，表示点乘操作，使得特征中取值较大的维度变得更大，较小的变得更小，由此放大特征间的差异；

3.4)节点嵌入模块，

给代表不同节点的特征进行不同的节点嵌入增强，得到具有节点属性感知的特征Z_k^ks，表达式如下：

其中，W_r是3×M₁的节点嵌入矩阵，是由网络学习得到，W_r[1]，W_r[2]，W_r[3]分别表示W_r的第1，2，3行，是第k个节点的属性；pos_k是M₁维的位置嵌入向量，当节点为属性节点时增大W_r[2]的权重系数，用来区分连接同一对象的不同属性节点的顺序，其表达式如下：

步骤4、增强图像编码特征之间关系的编码网络，具体过程是，

4.1)构建双向抽象场景图，

将原先抽象场景图ASG中有方向的单向边扩展为具有不同含义的双向边，即将G_ks＝(N_ks,E_ks)，ks＝1,2,...,N_s改为多关系场景图G_ks'＝(N_ks,E_ks,R_ks)，R_ks是节点间的6种交互关系，包括物体对属性oa、属性对物体ao、主体对关系or、关系对主体ro、客体对关系sr、关系对客体rs；

4.2)进行图卷积，

通过图卷积操作，对节点特征关系Z_k^ks进行编码，得到最终的区域特征Z_k^ksl+1，表达式如下：

其中，表示节点k在关系s下的邻居节点，σ是ReLU激活函数，是由网络学出的第l层的关系s的参数；

使用一次GCN能够为每个节点带来来自相邻节点的特征信息，而堆叠多次能够获得更广泛的上下文；最后第l层的输出作为编码阶段输出的10个512维的区域特征

再对区域特征取平均值得到全局编码特征表达式如下：

4.3)进行特征融合，

将全局编码特征和步骤2.2)得到的全局特征g_ks融合，得到编码阶段输出的全局特征表达式如下：

步骤5、将编码后特征输入解码网络输出语句，

将步骤4得到的全局编码特征作为输入，先通过GraphAttention计算每次进行解码需要关注的节点的权重，再通过双层LSTM网络输出，预测当前单词，再将当前LSTM的输出返回以更新全局编码特征重新计算节点权重，生成下一个单词，以此类推；

步骤6、按照以上步骤构建训练网络，

通过上述步骤1-步骤5，将构建好的编码网络和解码网络进行训练，用编码网络获得带有可控条件的图像特征，输入至解码网络，完成图像文本的描述。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。