[发明专利]基于DETR的人物成对解码交互的人与物交互检测方法在审
申请号: | 202210864552.1 | 申请日: | 2022-07-21 |
公开(公告)号: | CN115147931A | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 刘盛;张峰;陈俊皓;郭炳男;陈瑞祥 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/764;G06V10/766;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 忻明年 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 detr 人物 成对 解码 交互 检测 方法 | ||
1.一种基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述基于DETR的人物成对解码交互的人与物交互检测方法,包括:
将原始图像经过骨干网络得到的特征图注入训练好DETR网络,所述DETR网络包括编码器、解码器和MLP层,获得解码器输出的查询向量,以及DETR网络最终输出的目标框及目标类别;
将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别;
将物的类别输入到语义网络,得到物的语义查询向量;
融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量;
将对象查询向量输入到成对融合检测网络,实现人物交互检测。
2.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述语义网络包括空间注意力模块和语义聚合模块,所述语义空间注意力模块输入特征为数据集的动词嵌入向量,输出语义空间注意力特征;
所述语义聚合模块输入特征为所述语义空间注意力模块输出的语义空间注意力特征和查询向量分类器输出的物的类别,语义空间注意力特征通过线性层、ReLU激活函数、线性层、sigmoid激活函数得到注意力特征,与物的类别通过另一个线性层得到的特征相乘,将结果依次通过线性层、归一化层、ReLU激活函数和线性层后加上物的类别,然后输入到Transformer层得到物的语义查询向量。
3.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述融合物的查询向量和物的语义查询向量,得到融合的物查询向量,包括:
将物的查询向量和物的语义查询向量相加后通过ReLU激活函数,减去物的查询向量和物的语义查询向量相减后的平方。
4.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述成对融合检测网络依次包括改进的Transformer编码器、成对融合模块、Transformer解码器和MLP层;
所述改进的Transformer编码器,输入特征分别是对象查询向量和成对框位置编码,在改进的Transformer编码器中,将对象查询向量配对后与成对框位置编码结合,通过线性层和sigmoid激活函数,得到第一分支的输出;将对象查询向量复制后与成对框位置编码元素相乘,得到第二分支的输出;将两个分支的输出元素相乘后通过线性层,并与输入的对象查询向量相加,再经过归一化层,前向传播层和归一化层,输出成对查询向量;
在成对融合模块中,成对查询向量分别与成对框位置编码和经过自适应平均池化的全局视觉特征进行结合操作后,经过线性层后相乘,之后依次经过ReLU激活函数、线性层和ReLU激活函数得到最后的融合了多种特征的成对查询向量;
将融合了多种特征的成对查询向量经过Transformer解码器解码后,输出MLP中,得到人-物交互动作的概率分数,从而完成对人-物交互动作的检测。
5.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述基于DETR的人物成对解码交互的人与物交互检测方法,还包括:
计算网络整体损失函数,进行反向传播,更新网络参数;
其中,网络整体损失函数为:
Ltotal=La+LSKL
其中,Ltotal表示整体损失函数,La和LSKL分别表示动词交叉熵损失函数和语义相对熵损失函数;
所述的动词交叉熵损失函数La为:
其中,Nq表示为动词的种类数量,表示为统计与物体对应的预测动词类别数量,Φ表示总共的真实值的集合,表示在预测集合中,lf为焦点损失,lf(pt)=-αt(1-pt)γlog(pt),αt为抑制正负样本参数失衡参数,γ为控制简易/困难样本数量失衡参数,pt为样本,其中表示真实动词类别;
所述的语义相对熵损失函数LSKL为:
其中是数据集中动词对称条件分布,A是语义空间注意力模块处理过的动词的邻接矩阵,是KL散度损失函数;
可以通过以下计算获得:
其中Np是数据集中动词数量,cij为:
A可以通过以下计算获得:
其中τ是缩放归一化语义内积softmax分布的温度参数,是语义空间注意力模块处理过的动词嵌入向量,T是转置符号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210864552.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种晶圆UV解胶机
- 下一篇:一种应用与航天器铝合金壁板的加工工艺