[发明专利]一种端到端的视频动作检测定位系统有效
| 申请号: | 202011560837.3 | 申请日: | 2020-12-25 |
| 公开(公告)号: | CN113158723B | 公开(公告)日: | 2022-06-07 |
| 发明(设计)人: | 席道亮;许野平;刘辰飞;陈英鹏;张朝瑞;高朋 | 申请(专利权)人: | 神思电子技术股份有限公司 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/762;G06V10/77;G06V10/774;G06V10/80;G06K9/62;H04N19/40 |
| 代理公司: | 济南智本知识产权代理事务所(普通合伙) 37301 | 代理人: | 张平平 |
| 地址: | 250101 山东省济*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 端到端 视频 动作 检测 定位 系统 | ||
本发明公开了一种端到端的视频动作检测定位系统,涉及人体动作识别领域。端到端的视频动作检测定位系统的定位过程:视频解码;数据重组;设定数据采样频率,读取固定长度的视频片段,将数据重新组合为可输入数据模式输入到下一模块;对输入数据进行计算操作;空间关键信息提取;将时空信息解析单元模块提取的特征信息进行处理,使网络提取的特征更能关注图像中更加有用空间信息,滤除背景信息,对图像中动作发生的位置特征进行增强;通道信息整合挖掘;将时空信息解析单元模块得到的数据特征进行通道级别的信息整合,挖掘运动信息,关注帧之间运动信息挖掘,关注行为动作发生的类型;预测结果输出;采用1x1卷积输出对应的通道数量的特征图。
技术领域
本发明涉及人体动作识别领域,具体涉及一种端到端的视频动作检测定位系统。
背景技术
行为识别将给定得一段视频片段进行连续得多帧分析,能够实现识别视频中得内容,通常为识别人的动作,如打架、倒地等等,在实际应用场景中能够识别出场景内发生得危险行为,应用场景广泛,是计算机视觉一直研究的热点问题,目前基于深度学习的行为识别算法不仅能够识别动作发生的类型,还能定位动作发生的空间位置,在多目标,复杂场景下取得了较高的准确度。
Du Tran等人在论文《Learning Spatiotemporal Features with 3DConvolutional Networks》中提出了一个简单有效的方法,在大规模有监督视频数据集上使用深度3维卷积网络(3D ConvNets),该方法相比于2D ConvNets更适用于时空特征的学习,更能表达帧与帧之间的连续信息,在UCF101数据集上用更少的维度与当时最好的方法精度相当,采用简单的 3D卷积架构,计算效率高,前向传播速度快,更易于训练和使用,该方法的不足之处在于识别目标为单人简单场景,在复杂场景下应用识别精度低误报率高,基本无泛化能力,无法在实际复杂环境下推广应用,而且无法对画面中动作发生的位置进行定位。
论文《Two-Stream Convolutional Networks for Action Recognition inVideos》针对动作分类提出了一种双流网络检测方法,该方法采用并行网络spatialstream ConvNet和 temporal stream ConvNet,前者是一个分类网络,输入的是静态图像,得到图像信息,后者输入的连续多帧的稠密光流,得到运动信息,两个网络最后经过softmax做分类分数的融合,通过该方法计算准确度高,能够应用于复杂多人场景,但是该方法的不足之处在于需要预先得到待检测视频片段的光流信息,无法达到实时检测,同样无法定位动作发生的位置。
专利号为201810292563的中国专利,公开了专利一种视频动作分类模型训练方法、装置及视频动作分类方法,优点在于可以获取多个带有标签的训练视频中的训练图像帧,能够在学习到训练难度较小的训练视频帧特征的基础上,学习训练难度较大的训练图像帧与其他训练难度较小的训练图像帧之间的差异性特征,能够为训练视频进行更准确的分类,但是该方法仍然存在无法定位画面中动作发生得空间位置和起始时间。
专利号为201810707711的中国专利专利,公开了一种基于视频的行为识别方法、行为识别装置及终端设备,创新点在于利用卷积神经网络和长短记忆网络LSTM进行时序建模,增加帧与帧之间的时序信息,有效解决现有行为识别方法存在背景信息复杂、对时序建模能力不够强等问题,但是该方法不能实现端到端的训练,对单张RGB图像帧单独检测,在背景复杂场景下识别精度较低。
专利号为201210345589.X的中国专利,公开了一种基于动作子空间与权重化行为识别模型的行为识别方法优势在于输入为待检测得视频序列,提取了动作的时间信息,利用减背景的方法去除背景噪声对于前景的影响,不仅能够准确地识别随时间、区域内外人员变化的人类行为,而且对噪声和其它影响因素鲁棒性强,但是该方法对同一场景下多种存在多种行为时无法准确的做出判断。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011560837.3/2.html,转载请声明来源钻瓜专利网。





