[发明专利]一种端到端的视频动作检测定位系统有效
| 申请号: | 202011560837.3 | 申请日: | 2020-12-25 |
| 公开(公告)号: | CN113158723B | 公开(公告)日: | 2022-06-07 |
| 发明(设计)人: | 席道亮;许野平;刘辰飞;陈英鹏;张朝瑞;高朋 | 申请(专利权)人: | 神思电子技术股份有限公司 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/762;G06V10/77;G06V10/774;G06V10/80;G06K9/62;H04N19/40 |
| 代理公司: | 济南智本知识产权代理事务所(普通合伙) 37301 | 代理人: | 张平平 |
| 地址: | 250101 山东省济*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 端到端 视频 动作 检测 定位 系统 | ||
1.一种端到端的视频动作检测定位系统,包括视频解码模块和数据重组模块,其特征在于,定位过程包括以下步骤:
(1)视频解码;视频解码模块将网络视频流通过网络线路输入到视频解码单元,通过SOC片上系统将视频流解码为一帧帧的RGB图像,然后输入到数据重组模块,进行数据的预处理操作;
(2)数据重组;设定数据采样频率,读取固定长度的步骤(1)中视频解码得到的视频帧数据片段,将数据重新组合为可输入数据模式输入到步骤(3)的模块;
(3)对步骤(2)中重新组合后的数据进行计算操作;
(4)空间关键信息提取;将时空信息解析单元模块提取的步骤(3)中的数据进行处理,使网络提取的特征更能关注图像中更加有用空间信息,滤除背景信息,对图像中动作发生的位置特征进行增强;
(5)通道信息整合挖掘;将时空信息解析单元模块得到的步骤(4)的数据特征进行通道级别的信息整合,挖掘运动信息,关注帧之间运动信息挖掘,关注行为动作发生的类型;
(6)预测结果输出;采用1x1卷积输出步骤(5)处理后的数据的通道数量的特征图。
2.如权利要求1所述的一种端到端的视频动作检测定位系统,其特征在于,数据重组具体的过程为:
预测开始取固定长度n的视频片段处理后组成单元数据Ydst输入到时空信息解析单元模块,n等于8或者16,输入到时空信息解析单元模块之前需要将单元数据Ydst每张RGB图像的尺寸调整成固定尺寸大小;
假定源视频片段单张图片用Xsrc表示,输入到时空信息解析单元模块的固定尺寸的图片用Xdst表示,尺寸缩放后对于Xdst中的每个像素的计算方法如下:
(1)对于Xdst中的每个像素,设置坐标通过反向变换得到的浮点坐标为(i+u,j+v),其中i、j均为浮点坐标的整数部分,u、v为浮点坐标的小数部分,是取值[0,1)区间的浮点数;
(2)这个像素值f(i+u,j+v)可由原来图像中坐标为(i,j)、(i+1,j)、(i,j+1)、(i+1,j+1)所对应的周围四个像素值决定,即
f(i+u,j+v)=(1-u)(1-v)f(i,j)+(1-u)vf(i,j+1)+u(1-v)f(i+1,j)+uvf(i+1,j+1)
其中f(i,j)表示源图像(i,j)处的像素值。
3.如权利要求1所述的一种端到端的视频动作检测定位系统,其特征在于,对输入数据进行计算操作包括以下过程:
(1)将视频单元数据Ydst输入到时空信息解析单元模块中,将一系列的RGB图像帧RC×D×H×W输入到该模块,C=3代表每一张RGB图像帧的通道数,D表示每组单元数据Ydst的图片的数量,最大为16,H和W代表该组单元数据Ydst的每张图片的宽和高;时空信息解析单元模块输出特征图C1、H1、W1分别表示输出特征图的通道数、宽和高,为了适应空间关键信息提取模块的输出维度,强制D′=1,然后通过维度变换将时空信息解析单元模块输出的四维数据变换为三维数据,输出的特征图表示为
(2)采用增加空间关键信息提取模块,使网络更加关注行为发生的对象的特征,该模块的输入为输出特征图为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011560837.3/1.html,转载请声明来源钻瓜专利网。





