[发明专利]基于图表示和改进Transformer的人体解析方法有效
申请号: | 202110608046.1 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113313173B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 苏卓;陈敏诗;周凡 | 申请(专利权)人: | 中山大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V40/10;G06V10/20;G06V10/32;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图表 改进 transformer 人体 解析 方法 | ||
1.一种基于图表示和改进Transformer的人体解析方法,其特征在于,所述方法包括:
第一步,从服装数据集输入原始人体图像和分割真值图,并做预处理;
第二步,对所述预处理后的原始人体图像,使用DeeplabV3+网络生成粗解析图,并计算得到各个部位的分割掩码;
第三步,根据人体层次结构的先验知识,定义出语义类别数目和标签层次结构信息,从而定义三种邻接矩阵,作为输入图-Transformer结构的掩膜;
第四步,利用所述各个部位的分割掩码,以及利用所述语义类别数目和标签层次结构信息,将高维的所述粗解析图嵌入表示为图特征;
第五步,利用所述图特征和所述三种邻接矩阵,通过图-Transformer结构对全局信息推理传播,计算出新的图特征;
第六步,使用所述新的图特征和所述各个部位的分割掩码,计算出中间解析图,将其与所述粗解析图进行融合得到精解析图;
第七步,利用所述预处理后的原始人体图像,在神经网络的编码解码结构中重复上述第二、四、五、六步进行训练,形成最终人体解析模型;
第八步,输入待处理人体图像到所述最终人体解析模型中,得到需要的精解析图;
其中,所述根据人体层次结构的先验知识,定义出语义类别数目和标签层次结构信息,从而定义三种邻接矩阵,作为输入图-Transformer结构的掩膜,具体为:
根据人体层次结构,定义三种层次的语义标签结构,再根据该语义标签结构,将标签序号转换成图结点的邻接矩阵A(j)∈RN×N,其中j∈[1,3]分别表示三个邻接矩阵,由此表示的无向图为G=(V,E),语义结点V表示标签类别,即结点数等于人体部位的标签类别数N=|V|,图的边E由类别间的关系决定,对于两个结点不存在边相连的矩阵元素定义为-inf,其余存在关系的位置设为0,使后续计算的注意力权重在(0,1)的数值范围内更新;
其中,所述利用所述各个部位的分割掩码,以及利用所述语义类别数目和标签层次结构信息,将高维的所述粗解析图嵌入表示为图特征,具体为:
输入所述各个部位的分割掩码,即所述通过平均池化和最大池化得到的二进制掩码,记为M(k)∈RN×H×W,其中k为1、2时分别代表平均池化和最大池化操作的掩码,H,W分别为掩码图层的高、宽;
将两种分割掩码分别与所述粗解析图执行矩阵乘法再相加,将此过程表示为映射即通过得到嵌入表示的图特征Y∈RN×D,其中D是每个图结点的特征维数,所述图结点的数目为N,即为人体部位的标签类别数目;
其中,所述利用所述图特征和所述三种邻接矩阵,通过图-Transformer结构对全局信息推理传播,计算出新的图特征,具体为:
将所述图特征Y∈RN×D作为图-Transformer的输入序列,设向量p=[0,1,2,…,N-1]T为各个人体部位的位置编码,其中N为人体部位的标签类别数,将所述位置编码与所述图特征做级联操作,组成图-Transformer的新的输入序列;
将所述新的输入序列通过多头注意力机制的部分计算,得到初始的兼容性得分,再将所述三种邻接矩阵作为掩膜输入,与初始的兼容性得分相加作为一种负向约束,以抑制不存在关系的结点的权重,从而得到更新的兼容性得分;
将所述更新的兼容性得分做softmax归一化处理,得到0到1之间的注意力掩码;
计算所述图结点之间的特征向量的余弦相似度,从而得出图结点之间的关系矩阵B(i)∈RN×N,其中i∈[1,3]分别表示三个关系矩阵;
将所述关系矩阵和所述注意力掩码做矩阵乘法,得到三种中间图特征;
将所述三种中间图特征与所述邻接矩阵A(j)∈RN×N计算L1损失;
将所述三种中间图特征做级联操作,得到融合图特征,融合后进行非线性变换,得到增强的图特征,其维度与输入图-Transformer时一致,迭代计算上述步骤一定次数,最终输出为新的图特征Y′∈RN×D;
其中,所述使用所述新的图特征和所述各个部位的分割掩码,计算出中间解析图,将其与所述粗解析图进行融合得到精解析图,具体为:
将所述二进制分割掩码M(k)∈RN×H×W与所述新的图特征Y′∈RN×D做矩阵乘法,由此将图特征中每一个人体标签类别的图表示的特征向量转换为特征图,得到中间解析图;
对所述中间解析图做1*1的卷积操作,将其通道数设定为256个,以便与粗解析图进行相加融合,得到最终的精解析图Z′∈RC×H×W,其中C是通道数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110608046.1/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法