[发明专利]视频中人体动作切分方法及装置有效
申请号: | 202011415844.4 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112464847B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 王小娟;何明枢;金磊 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 宋教花 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 人体 动作 切分 方法 装置 | ||
本发明提供一种视频中人体动作切分方法及装置,所述方法使用人体姿态估计算法提取人体骨骼关键点信息以反映人体结构特征,通过滑窗提取多个候选序列,并利用人体骨骼关键点信息基于动态时间规划算法分析各候选序列与标准序列的相似性,最终得到与标准序列最接近的候选序列,并完成对视频的切分。基于人体结构特征进行分析,能够极大提高视频切分的准确度,并简化运算复杂度。通过滑窗提取候选序列并使用动态时间规划算法进行分析,保留了完整的帧间关系信息,提高了切分准确度。
技术领域
本发明涉及视频内容提取领域,更具体而言,本发明涉及一种视频中人体动作切分方法及装置。
背景技术
人工智能作为新一轮科技革命和产业变革的重要驱动力量,已成为当前的研究热点之一。计算机视觉作为人工智能三大领域之一,在近期越来越受到关注。计算机视觉是研究如何使机器“看”的科学,研究如何让计算机从图像和视频中获取高级、抽象信息,从而代替人类视觉,完成自动化任务。近期,随着深度学习的迅猛发展,计算机视觉成为了目前人工智能领域落地商用最顺利的技术,在自动驾驶、人脸识别、智能安防等领域,计算机视觉有着广泛的应用。随着任务要求的提高,许多计算机视觉任务由对图片进行分析进化成对视频进行分析,从而衍生出了一些基于视频分析的高级计算机视觉任务。
目前,动作切分领域中的现有技术有基于三维卷积神经网络(3D CNN)对视频进行特征提取,这类技术通过在二维卷积神经网络(2D CNN)上增加时间维度,更好捕获视频中的时间和空间信息。但通过该技术捕捉运动信息需使卷积层的每一个特征图都与上一层中多个邻近的连续帧相连,算法的时间复杂度较大,且在进行动作切分过程中,该方法仅针对视频中的语义信息进行分析。此外,动作切分领域中还有基于图像和光流双流输入网络的技术,该类技术使用光流方法处理视频中连续帧的前后关系,无法得到动作在两帧之间变化的详细数据;与基于三维卷积神经网络缺点类似地,在进行动作切分时仅针对视频中语义信息进行分析。
因此,现有技术中基于语义信息进行分析必然会存在算法复杂,切分准确率低,动作切分后连续帧前后关系难以得到。如何提高视频中的人体动作切分效率,是一个亟待解决的问题。
发明内容
本发明提供了一种视频中人体动作切分方法及装置,以解决现有切分方法中算法复杂、切分效果和准确率低的问题。
本发明的技术方案如下:
一方面,本发明提供一种视频中人体动作切分方法,该方法包括以下步骤:
获取待切分视频,使用卷积神经网络提取所述待切分视频中每帧图像的人体骨骼关键点信息,并将每帧图像的所述人体骨骼关键点信息按照原视频中各帧的前后顺序组成输入关键点序列;
通过预设时间长度的滑窗在所述输入关键点序列中提取多个候选序列;
基于动态时间规划算法计算各候选序列与动作切分标准库中标准序列的距离;
在时域上对各候选序列与标准序列的距离进行非极大值抑制,并获取在时域上不交叠且与所述标准序列距离小于设定阈值的候选序列作为切片,按照所述切片对应的时段对待切分视频进行切分。
在一些实施例中,所述输入关键点序列和所述标准序列是基于人体姿态估计算法对标准视频处理得到的人体骨骼关键点序列,同时去除了对动作区分贡献较小的关键点,并添加了对动作区分贡献较大的关键点。
在一些实施例中,所述人体姿态估计算法为Alphapose算法。
在一些实施例中,所述输入关键点序列和所述标准序列中的采用的关键点包括:
头部、胸部、左肩、右肩膀、左肘、右肘、左手、右手、左胯、右胯、左膝、右膝、左脚以及右脚。
在一些实施例中,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011415844.4/2.html,转载请声明来源钻瓜专利网。