[发明专利]一种基于语义解耦的自注意力模型的组合动作识别方法在审
| 申请号: | 202211606003.0 | 申请日: | 2022-12-14 |
| 公开(公告)号: | CN115953832A | 公开(公告)日: | 2023-04-11 |
| 发明(设计)人: | 舒祥波;涂哲维;黄捧;严锐 | 申请(专利权)人: | 南京理工大学 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/80;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 吴旭 |
| 地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语义 注意力 模型 组合 动作 识别 方法 | ||
本发明公开了一种基于语义解耦的自注意力模型的组合动作识别方法,在STH‑ELSE数据集三种划分上均取得了最先进的效果。该方法通过物体‑动词解耦模块(OMD)和语义解耦约束模块(SDC),实现了对动词和物体组合的高级语义特征的解耦,缓解了组合动作识别中的由于分布偏差带来模型性能下降的问题。在OMD中设置若干初始化的可学习标记以捕捉与物体相关的时空特征,并在高层视觉空间中将学习到的时空特征进行初步解耦。在SDC中引入文本信息对OMD中构建的解耦特征进行更严格的语义层面的一致性约束,最终学习到完全解耦后的外观和运动特征。
技术领域
本发明涉及一种计算机视觉领域中的组合动作识别方法。
背景技术
动作识别因其在人机交互、虚拟现实、社会公共安全等领域的广泛应用,已然成为计算机视觉领域的研究热点。近年来,随着大规模数据集和强劲骨干网络的不断提出,动作识别经历了快速发展,但当遇到类别未知或者分布未知的样本时,传统的动作识别基准模型表现得差强人意。这表明模型学习到的仅是很强的外观偏差,并不能真正理解动作本身的语义信息,泛化能力远不足以达到在现实世界应用的标准。
人类行为具有天然的组合性,而人类视觉感知系统理解复杂人体行为时,通常不会聚焦到物体本身,而只关心人对物体执行了何种操作,因而人类很容易从已知的行为组合来推理未见的行为组合。为进一步挑战模型的泛化能力,组合动作识别任务应运而生。该任务将每个动作都分解成一个动词和一个或多个物体的组合,并设置测试集中动词和物体的组合与训练集中的组合不重叠,这使得训练集和测试集中“动词-物体”组合分布不一。这种分布偏移期望模型加强对动作本身的语义理解,极大挑战了模型的泛化能力。
如何克服“动作-物体”组合在训练和测试集合上的偏移是组合行为识别的关键挑战。过往研究尝试从额外的监督信息中提取特征,如物体的坐标框和标签,以干扰外观特征的原始分布。但这类工作均无法直接破坏动作和物体的组合,动作和物体的特征仍交织在一起,阻碍了模型对动作本身语义的理解。
发明内容
发明目的:针对上述现有技术,提出一种基于语义解耦的自注意力模型(DeFormer)的组合动作识别方法,解决组合动作识别中因分布偏差带来模型性能下降的问题,实现对动词和物体组合的拆分,加强模型理解动作语义能力和泛化能力。
技术方案:一种基于语义解耦的自注意力模型的组合动作识别方法,包括如下步骤:
步骤1:从输入视频随机采样一定数量的帧图像,同时获得每张帧图像的物体坐标;将帧图像进行分块嵌入得到视频标记,根据物体坐标对帧图像进行特征提取获得区域标记,利用时序聚合编码获得帧序列上物体轨迹标记;
步骤2:将区域标记和轨迹标记相加后的标记与视频标记进行拼接,将拼接后的标记输入至物体-动词解耦模块,得到分类标记以及初步解耦后的外观和运动特征;
步骤3:使用文本编码器对视频真实标签中动词和物体分别进行编码得到相应文本嵌入,将步骤2得到的外观和运动特征输入至语义解耦约束模块中,分别经过特征融合单元后与相应文本嵌入计算对比损失;
步骤4:将步骤2得到的特征进行融合后与视频真实标签计算分类损失,与步骤3得到的外观对比损失和运动对比损失按权重进行相加,得到最终模型损失以优化网络;
步骤5:采用优化后的网络进行组合动作识别。
进一步的,所述步骤1包括如下具体步骤:
将输入视频随机采样T张分辨率为H×W的帧图像作为输入获取每张帧图像的O个物体坐标将采样的T张帧图像进行分块嵌入得到视频标记Xvid,分块嵌入使用一层3D卷积实现;
根据物体坐标对帧图像进行特征提取获得区域标记Xobj,即:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211606003.0/2.html,转载请声明来源钻瓜专利网。





