[发明专利]一种基于YOLOv5和GME的采样方法在审
申请号: | 202210585051.X | 申请日: | 2022-05-27 |
公开(公告)号: | CN115063880A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 贾海涛;邹新雷;任利;贾宇明;张钰琪;胡佳丽;高源;邢增桓 | 申请(专利权)人: | 成都云擎科技有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/82;G06T7/207;G06T7/11 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 yolov5 gme 采样 方法 | ||
1.一种基于YOLOv5和GME的采样方法,包括以下步骤:
步骤1.运动矢量获取模块,为本专利核心内容。YGME算法将使用帧之间的运动矢量数据替代光流值进行接下来的全局运动估计与补偿。由于视频中的运动矢量在视频解压的过程中就可以直接获得,相较于GME,这样做避免了大量的光流运算(Brox光流算法在NVIDIAGPU上的处理速度为一帧0.06s,也就是约16FPS)。
步骤2.参数运动估计模型,全局运动的参数模型分为四种:二参数模型、四参数模型、六参数模型、八参数模型。四种不同的模型具备的全局运动建模特性不同。
从实际应用场景上分析,通常来说,参数的减少意味着准确度的下降,但是在实际的视频人体行为识别中,如果直接基于视频的压缩域运动矢量(MPEG)来代替相邻两帧图像的光流进行全局运动估计,四参数模型就足以描述其各种运动模式。在本发明中将使用四参数模型估计参数。坐标系将二维图像分为四个区域,右下、左下、左上、右上分别为IIIIIIIV象限。在I象限的像素中取一点,其坐标为aI=(x,y)T,x>0,y>0,该像素在另外三个像素中关于XY轴以及原点对称的三点分别为aII=(-x,y)T,aIII=(-x,-y)T,aIV=(x,-y)T。
基于以上建模,就可以用以下方程来表示全局运动:
公式中,aI=(x,y)T表示图像帧中的某一像素点,tx和ty代表了XY轴两个方向的摄像机平移运动变量,a1和a2代表了伸缩和旋转的运动变量。根据这四个参数,构筑了全局运动估计的四参数模型,可以根据该四个参数估计摄像机全局运动。
在XOY坐标系中,可以用下面的公式表示随机一点的运动矢量:
MVP(ai)=f(ai|A,T)-ai=(A-I)×ai+T
首先基于视频图像的中心作为原点,构建XOY坐标系,导入其全局运动的矢量数据。
步骤3.人体区域分割模块,为本专利的核心思想。为了消除局部运动(主要是人体运动)对全局运动的错误估计,使用行人检测YOLO算法获取视频帧中的人员存在区域,留下人员存在以外的那部分区域。随后裁去其整张运动矢量图中的对应区域运动矢量,输入剩余区域的运动矢量进行参数估计,估算出整张图的全局运动矢量。最后返还计算出的全局运动矢量,还原出一张没有发生全局运动的运动矢量图。
全局运动补偿的公式如下:
MVP′(ai)=MVPpeople(ai)-MVPglobal(ai)
MVPpeople(ai)是人员区域运动矢量数据,为已知值,MVPglobal(ai)是全局运动矢量,根据述四参数模型的算法,MVPglobal(ai)的计算公式如下:
MVPglobal(ai)=Aai+T
所以上式可写为:
步骤4.整体的采样方案在双流SlowFast结构上进行性能测试。在HMDB51数据集上的实验结果中,51类行为数据中,有48个类别的识别率得到了提升,其中dance、ride、hit等几类提升超过了10%,只在lie(-0.1AP)、throw(-0.2AP)、phoning(-0.4AP)三类上有极小的降低,以Top-5的评价标准来看,其识别的准确率从86.2%提升到了88.3%。除此以外,算法的分类损失函数和整体损失函数比其他采样方法的收敛速度更快。
压缩域CGME是基于GME算法提出的为了提升全局运动补偿运行速度的算法。其核心思路在于用视频的运动矢量,也就是MPEG光流来代替需要计算得到的Brox光流,在运动信息的描述显然不如Brox光流,其原因是MPEG光流以16*16的图块描述运动信息,而Brox光流则是像素与像素间的运动信息。但其运算速度有了近百倍的提升(从6.6fps到912.3fps),但是实际运行过程并不需要这么快的速度,故而使用一部分资源,利用目标检测算法YOLOv5作为辅助改善CGME算法的准确率。从实验的结果来看,压缩域的YGEM算法以降低一部分识别率的代价(下降约1.8%),大大提升了算法的运行速度(从6.6fps到86.0fps),使得全局运动补偿在实时应用的场景的有了实际意义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都云擎科技有限公司,未经成都云擎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210585051.X/1.html,转载请声明来源钻瓜专利网。