[发明专利]一种基于相关物体感知的动作识别方法有效
申请号: | 202010531050.8 | 申请日: | 2020-06-11 |
公开(公告)号: | CN111797704B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 梁爽;马文韬;储港;谢驰 | 申请(专利权)人: | 同济大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/82;G06N3/0464;G06N3/048;G06N3/08;G06V10/74;G06V10/80;G06V10/764;G06V10/774 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相关 物体 感知 动作 识别 方法 | ||
1.一种基于相关物体感知的动作识别方法,用于融合动作相关物体特征识别人物动作,其特征在于,包括以下步骤:
1)通过卷积神经网络提取待识别图像的特征图;
2)获取待识别图像中的物体,并计算各物体与动作的相关性大小;
3)根据相关性大小筛选最相关物体,提取得到最相关物体特征;
4)获取待识别图像中的人物,提取人体特征;
5)融合人体特征与最相关物体特征,计算各动作的发生概率,完成图像中人物动作的识别;
所述的步骤2)具体包括:
201)以输入特征图上每一个像素位置为中心,分别设置K个不同尺度的锚点框,作为物体候选框枚举出待识别图像中的物体;
202)计算各物体候选框对应的动作相关性分数:
使用一个3×3的卷积扩大特征图上每一个像素对应的感受野,再使用K个1×1的卷积在特征图的每一个像素位置上计算和物体候选框一一对应的动作相关性分数;
203)利用sigmoid函数将各物体候选框对应的动作相关性分数映射到0到1之间,得到标准动作相关性分数。
2.根据权利要求1所述的一种基于相关物体感知的动作识别方法,其特征在于,所述的步骤3)具体包括:
301)根据动作相关性分数,由高至低排列各物体候选框,构成候选框列表;
302)获取候选框列表中重合比例大于设定重合阈值的物体候选框,作为重合候选框组;
303)从各重合候选框组中分别筛选出动作相关性分数最高的物体候选框,作为最相关物体,得到包含N个最相关物体候选框的最相关候选框列表;
304)对步骤1)输出的特征图应用RoI池化得到N个物体候选框对应的特征向量,并将特征向量乘以对应物体候选框的标准动作相关性分数,得到N个最相关物体特征。
3.根据权利要求2所述的一种基于相关物体感知的动作识别方法,其特征在于,所述的步骤303)还包括:
若从各重合候选框组中筛选出的物体候选框数量大于100,则只选取动作相关性分数最高的前100个物体候选框,作为N个最相关物体。
4.根据权利要求2所述的一种基于相关物体感知的动作识别方法,其特征在于,所述的设定重合阈值为0.7,所述的重合比例的计算公式为:
其中,A∩B表示第一物体框和第二物体框间相交区域面积,A∪B表示第一物体框和第二物体框的实际总面积。
5.根据权利要求1所述的一种基于相关物体感知的动作识别方法,其特征在于,所述的步骤5)具体包括:
501)对人体特征使用卷积层提取特征,并使用一层全连接层做分类器,得到各人体特征对应各动作类别的人体分类得分;
502)对最相关物体特征使用卷积层提取特征,并使用一层全连接层做分类器,得到各最相关物体特征对应各动作类别的物体分类得分;
503)选取每一动作类别中得分最高的物体,将对应物体分类得分与人体分类得分相加,得到最终分类得分:
其中,表示第m个人进行第a个类别的动作的最终分类得分,M为人体特征的数量,A为动作类别的数量;
504)对最终分类得分应用softmax函数,得到待识别人体进行每一类动作的概率,完成动作识别。
6.根据权利要求5所述的一种基于相关物体感知的动作识别方法,其特征在于,该方法在训练时的损失函数Loss的表达式为:
其中,表示第m个人进行第a个类别的动作的最终得分,表示数据集提供的第m个人是否真的在进行第a个类别的动作的标签,为真,值为1,反之为0。
7.根据权利要求1所述的一种基于相关物体感知的动作识别方法,其特征在于,所述的K个不同尺度的锚点框包括16个覆盖的物体面积从162到5122的锚点框,其具体包括:
大小为16×16正方形像素区域的基础锚点框,以及与基础锚点框面积大小比例分别为2倍、4倍、8倍、16倍和32倍,长宽比例分别为0.5倍、1倍、2倍的共计15个不同尺度的锚点框。
8.根据权利要求1所述的一种基于相关物体感知的动作识别方法,其特征在于,所述的步骤1)具体包括:
101)在待识别图像的四条边用0填充10个像素宽的区域,并对填充完的图像按原图像大小进行随机裁剪,并以0.5的概率对图像进行水平翻转;
102)将随机翻转后的图像在RGB三个通道上分别减去ImageNet数据集上计算出的均值,并除以标准差,进行标准化处理;
103)使用ImageNet上预训练的ResNet网络的前四个卷积层,提取处理后图像的特征图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010531050.8/1.html,转载请声明来源钻瓜专利网。