[发明专利]一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法有效

申请号：	201910604999.3	申请日：	2019-07-05
公开（公告）号：	CN110348364B	公开（公告）日：	2021-07-02
发明（设计）人：	毋立芳;李则昱;杨洲;简萌	申请（专利权）人：	北京工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46;G06K9/62
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种监督时空深度网络相结合篮球视频群体行为识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法，其特征在于，包括以下步骤：

1)、运动场特征表达

运动场是运动信息表示和结构化数据建模的理想数据形式；用光流来表示运动场；PWC-Net估计的光流场包含两个通道，分别表示水平方向x方向和垂直方向y方向对应的像素位移；设计运动特征直方图特征来描述运动数据，根据像素点的运动幅度和运动方向将每个点量化，用9个类别表达量化空间；对运动场中所有量化点进行类别统计，提出统计特征运动特征直方图；运动特征直方图表达了不同类别的分布；

对图片进行分块，分别按顺序统计每块图片区域的运动特征直方图并连接起来作为整幅图片的运动特征直方图；

2)、基于无监督聚类的标签生成

基于提取的运动特征直方图进行层次聚类，取训练集中的几场比赛视频做层次聚类，对每个类别中的特征取平均值作为这个类别的基准特征，基准特征可以很好的代表这个类别；对于任意一张输入图片，计算其运动特征直方图，然后和每个类别的基准特征比较，计算运动特征直方图和各类基准特征的余弦距离，余弦距离数值最小所对应的基准特征类即为图片所属类，基准特征类标签即为图片标签，以此实现图片自动标注标签；

3)、基于LSTM的群体活动识别方法

采用ConvLSTM结构进行时空数据建模和群体活动识别；利用VGG-11结构，在每一个卷积层之后都使用batch normalization层来表示运动场的特征；通过基于无监督聚类的标签生成方法，确定每个输入运动场的监督信号；通过深度神经网络结构，提取运动场的语义级特征表示，进一步进行时间建模；提取VGG-11网络中第二个全连接层的特征向量作为运动场的表示；然后利用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合，进一步进行群体活动推理；

数据采用的是NCAA篮球数据集；采用卷积神经网络CNN与长短期记忆网络LSTM相结合的模型架构进行时空域数据建模和篮球视频中的群体活动识别；在卷积神经网络部分，采用VGG-11结构进行图像特征表达；首先，通过步骤2中基于无监督聚类的标签生成方法，确定每个输入运动场的监督信号，并基于此标签信息进行模型训练；在网络训练过程中，训练集数据为150场比赛的共计30000张运动场图片数据，测试集数据为33场篮球比赛中共计8296张运动场图片，训练批次大小设置为64，采用Adam学习率更新策略，初始学习率设置为0.001，输入运动场图像尺寸为2*224*224；模型训练完成后，运动场图像输入到VGG-11深度神经网络，提取运动场的语义级特征表示，采用VGG-11网络中第二个全连接层的特征向量作为运动场的特征表达，向量维度为1*4096；

采用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合，进一步进行群体活动推理；网络输入为VGG-11网络提取出的运动场特征表达向量，在网络训练过程中，训练集数据为212场比赛中共计9641个视频段，测试集数据为33场篮球比赛中共计2152个视频段，训练批次大小设置为32，采用Adam学习率更新策略，初始学习率设置为0.001；在测试阶段，模型的输入为连续16帧运动场图像对应的特征向量，输入数据维度为16*4096；LSTM隐层神经元数量设置为2048，分类层神经元数量设置为6。

2.根据权利要求1所述的方法，其特征在于运动场特征表达具体为：

通过端到端深度网络；输入数据为连续篮球视频帧，图片大小为490*360和720*1280两种规格，输出的光流图大小与输入数据尺寸相同；在输出的光流场数据基础上进行彩色编码，即将光流场幅度值转化为三通道[0-255]RGB图像；设计运动特征直方图特征来描述运动数据，根据像素点的运动幅度和运动方向将每个点量化，用9个类别表达量化空间；对运动场中所有量化点进行类别统计，提出统计特征运动特征直方图；运动特征直方图表达了不同类别的分布。

3.根据权利要求1所述的方法，其特征在于：

基于提取的运动特征直方图进行层次聚类，取训练集中的5场比赛共95个视频段做层次聚类，对每个类别中的特征取平均值作为这个类别的基准特征，对于任意一张输入图片，计算其运动特征直方图，然后和每个类别的基准特征比较，计算运动特征直方图和各类基准特征的余弦距离，余弦距离数值最小所对应的基准特征类即为图片所属类，基准特征类标签即为图片标签，以此实现图片自动标注标签。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910604999.3/1.html，转载请声明来源钻瓜专利网。

上一篇：基于多帧角度信息融合消除相似车辆干扰的车辆跟踪方法
下一篇：操作的记录方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法有效

专利文献下载