[发明专利]视频动作检测方法及装置在审
申请号: | 201710146933.5 | 申请日: | 2017-03-13 |
公开(公告)号: | CN108573197A | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 刘春晖;厉扬豪;胡越予;刘家瑛;郭宗明 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨文娟;刘芳 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 帧图像 视频 动作检测 骨架数据 预测信息 训练视频 预测结果 收敛 视频片段 手动提取 图像 检测 重复 优化 | ||
本发明提供一种视频动作检测方法及装置,其中方法包括:从训练集中选取训练视频,获取训练视频中每一帧图像的骨架数据以及对图像中动作的识别结果和预测结果;利用神经网络对每一帧图像的骨架数据进行处理,获取每一帧图像的识别信息和预测信息;根据所述识别信息与识别结果、以及所述预测信息与预测结果,对神经网络进行优化;重复上述步骤,直至神经网络收敛;在神经网络收敛后,利用神经网络对待测视频中每帧图像的骨架数据进行处理,得到相应的识别信息和预测信息。本发明提供的视频动作检测方法及装置,能够对视频中每一帧图像进行识别,无需手动提取视频片段,提高了检测效率和准确性。
技术领域
本发明涉及计算机视觉技术,尤其涉及一种视频动作检测方法及装置。
背景技术
视频动作检测的目标是给定一个视频序列,识别出给该视频序列中的动作发生的区间以及相应的种类。微软Kinect设备的发展使得人的关节骨架(skeleton)数据可以更容易的获取,关节骨架是人的更抽象的表达,对动作检测和预测问题有着很大的帮助。
现有技术中,视频动作检测的工作是基于动作识别完成的。动作识别的任务是给定一个短的视频片段识别出其动作种类。传统的动作识别方法是提取视频图像的梯度直方图等传统特征信息进行分类。在此基础上,又有人提出了利用前后帧的动作轨迹和光流作为一个新的特征结合传统特征利用费希尔向量进行压缩编码之后进行分类。这些方法只是将视频看作一个整体,一段视频仅能够识别出一个动作种类,当长视频中有多个动作时,需要手动提取视频片段,再利用上述方法针对每个视频片段进行识别,效率低下,且准确性较差。
发明内容
本发明提供一种视频动作检测方法及装置,用以解决现有技术中视频动作识别的效率低下的技术问题。
本发明提供一种视频动作检测方法,包括:
从训练集中选取训练视频,获取训练视频中每一帧图像的骨架数据以及对图像中动作的识别结果和预测结果;
利用神经网络对每一帧图像的骨架数据进行处理,获取每一帧图像的识别信息和预测信息;
根据所述识别信息与识别结果、以及所述预测信息与预测结果,对神经网络进行优化;
重复上述步骤,直至神经网络收敛;
在神经网络收敛后,利用神经网络对待测视频中每帧图像的骨架数据进行处理,得到相应的识别信息和预测信息。
进一步地,利用神经网络对每一帧图像的骨架数据进行处理,获取每一帧图像的识别信息和预测信息,包括:
将每一帧图像的骨架数据分别输入到神经网络的特征提取部分,得到相应的特征信息;
将所述特征信息输入到多任务神经网络部分,得到每一帧图像的识别信息和预测信息。
进一步地,根据所述识别信息与识别结果、以及所述预测信息与预测结果,对神经网络进行优化,包括:
根据所述识别信息和所述识别结果计算识别误差;
根据所述预测信息和所述预测结果计算预测误差;
根据所述识别误差和所述预测误差的加权和,得到总误差,并利用随机梯度下降法反向传播神经网络参数。
进一步地,在神经网络收敛后,利用神经网络对待测视频中每帧图像的骨架数据进行处理,得到相应的识别信息和预测信息,包括:
神经网络收敛后,获取待测视频的骨架数据;
将待测视频中的每一帧图像的骨架数据输入到神经网络的特征提取部分,得到相应的特征信息;
将所述待测视频对应的特征信息输入到多任务神经网络部分,得到每一帧图像的识别信息和预测信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京北大方正电子有限公司,未经北京大学;北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710146933.5/2.html,转载请声明来源钻瓜专利网。