[发明专利]一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法有效
申请号: | 201910604999.3 | 申请日: | 2019-07-05 |
公开(公告)号: | CN110348364B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 毋立芳;李则昱;杨洲;简萌 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 时空 深度 网络 相结合 篮球 视频 群体 行为 识别 方法 | ||
一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法属于篮球视频中的语义事件自动识别领域。该方案首先利用光流估计方法,从连续视频帧中获得运动场属性。然后提取运动特征直方图(MCH)作为运动场表征的描述符。随后,提出了一种基于聚类的运动场标签生成方法。将聚类后生成的标签代替原本定义的组活动标签作为运动场的监督信号来训练CNN模型,可以更有效地表示运动场的特征。最后,将CNN模型的输出特征输入到LSTM结构中进行语义事件识别。此发明对篮球视频数据智能化管理、篮球技战术分析和自动转播等应用奠定了基础。
技术领域
本发明属于视频语义事件识别领域,涉及运动模式提取,时间域特征建模,度量距离关系实现无监督数据标注,具体涉及基于层次聚类算法实现类别基准特征计算,基于CNN网络实现运动场图像特征提取和基于LSTM网络实现群体行为识别,提出了一种用于篮球视频群体活动识别的聚类时空域网络模型。
背景技术
计算机视觉作为当今人工智能热门的研究领域之一,通过对摄像机和电脑模拟人类视觉对目标进行识别、跟踪、测量等,并通过识别和分析做进一步的图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。视频语义识别是该中重要的研究方向,在现实生活中有着十分广泛的应用领域与研究价值,如视频监控、体育赛事转播等。近年来,伴随电子信息技术的飞速发展,计算机在计算能力和存储能力等方面取得了突飞猛进的进步,同时深度学习算法和高性能网络框架的提出,使得视频语义事件识别的广泛发展成为可能。
本发明中的视频语义事件识别方法主要针对篮球视频中的语义事件识别任务。在篮球视频中,一个完整的语义事件由群体活动(3分球,上篮,罚篮等)与活动得分情况(球进或没进)组成。对于群体活动识别,运动模式是一个有效的判别特征,球员的运动模式以及镜头的变化规律在不同群体活动中呈现出不同的特点。然而不同的群体活动之间,如图2所示,也存在相似的运动特征。因此用相同的监督信号标注每组中的全部视频帧是不合理的,这样忽视了不同群体活动之间的相关性。本发明提出了一种基于聚类的运动场标签生成方法。对每个类别中的特征取平均值作为这个类别的基准特征,基准特征可以很好的代表这个类别。将聚类后生成的标签代替原本定义的组活动标签作为运动场的监督信号来训练CNN模型,可以更有效地表示运动场的特征。最后,将CNN模型的输出特征输入到LSTM结构中进行语义事件识别,得到完整的篮球语义事件识别结果。
基于卷积神经网络的方法是目前视频语义事件识别的主流算法框架。Lan等人在2012年发表的文章“Discriminative latent models for recognizing contextualgroup activities.”中提出利用一个潜在的变量框架联合提取了群体-人交互模式和人-人交互模式,探索场景中的进行多层次交互。Amer等人在2014发表的文章“Hierarchicalrandom field for collective activity recognition in videos.”中提出了一种用于高阶节奏依赖关系建模的分层随机场结构。随着近年来深度学习算法的发展,基于深度神经网络的结构化模型成为群体识别的主流解决方案。Wang等人在2018发表的文章“Recurrent modeling of interaction context for collective activityrecognition.”中提出了一种通过LSTM结构实现多级特征提取的方案,捕获了用于群体活动识别的层次交互信息。Ramanathan等人在2016发表文章“Detecting events and keyactors in multi-person videos.”中提出了一种基于注意的循环框架,重点研究篮球场景中语义事件定位和识别。Qi等人在2018年发表的文章“stagnet:An attentive semanticrnn for group activity recognition.”中提出了一个专注的RNN框架,将时空注意力和语义图融合在一起,用于关键个体和框架推理。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910604999.3/2.html,转载请声明来源钻瓜专利网。