[发明专利]基于图卷积网络和长短时记忆网络的事件预测方法有效
| 申请号: | 202010265812.4 | 申请日: | 2020-04-07 |
| 公开(公告)号: | CN111488815B | 公开(公告)日: | 2023-05-09 |
| 发明(设计)人: | 郑伟诗;黄嘉胜 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06N3/0442;G06N3/045;G06N3/0464;G06N3/084 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 图卷 网络 短时记忆 事件 预测 方法 | ||
本发明公开了一种基于图卷积网络和长短时记忆网络的事件预测方法,包括下述步骤:S1、对篮球比赛视频单位时间视频频段的个体进行检测,依据检测到的个人位置,在空间和时间上进行视频切片,再将切片后的视频送进三维残差卷积网络进行特征提取;S2、构建基于图卷积神经网络的篮球进分时间预测模型;S3、基于图卷积神经网络和长短时记忆神经实现对一段篮球视频下一单位长度进球事件的预测。本发明定义了新型的图卷积神经网络,能有效捕捉人与人的关系,有效地考虑到了边权重的重要信息,并将场景全局特征作为模型输入,使得模型能从局部到全局刻画视频特征,从而获得一个更加完整的篮球比赛行为描述,进而有效地预测未来进球事件。
技术领域
本发明属于计算机视觉的技术领域,具体涉及一种基于图卷积网络和长短时记忆网络的事件预测方法。
背景技术
目前主要的事件预测方法主要是通过均匀抽取视频中的帧,对视频中的每一帧进行二维卷积网络提取特征,将得到的帧特征序列,输入到长短时记忆神经网络(LSTM),以对视频的未来事件进行预测。
现有技术中的事件预测方法用的是二维卷积网络对帧进行特征提取,每次输入二维卷积网络只有一帧图像,所得到特征缺少时间维度的信息。且由于输入为整张图片,因此是基于全局的特征,缺少对局部关键信息和各个局部信息之间互相影响的刻画,如缺少对篮球比赛中每个运动员自己和与他人互动的信息的刻画。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于图卷积网络和长短时记忆网络的事件预测方法,可以对篮球比赛进行良好的特征描述,从而实现篮球进分事件的准确预测。
为了达到上述目的,本发明采用以下技术方案:
基于图卷积网络和长短时记忆网络的事件预测方法,包括下述步骤:
S1、对篮球比赛视频单位时间视频频段的个体进行检测,依据检测到的个人位置,在空间和时间上进行视频切片,再将切片后的视频送进三维残差卷积网络进行特征提取;
S2、构建基于图卷积神经网络的篮球进分时间预测模型,所述图卷积神经网络用于对具有节点和边的图模型进行特征变换和表征,从而使得每个节点不仅包含该节点所具有特征,同时包含与该节点相邻节点的信息;
S3、基于图卷积神经网络和长短时记忆神经实现对一段篮球视频下一单位长度进球事件的预测,先将输入的T秒长的篮球视频,按单位时间长度1秒分为T段视频片段,对于每个视频片段,用图卷积网络进行特征提取,最后将T个视频片段的特征按顺序输入长短时记忆神经网络进行预测。
作为优选的技术方案,步骤S1具体为:
S11、随机采样L帧RGB图像,并按时间顺序排列;
S12、将随机采样到的最后一帧RGB图像送进yolo-v3检测网络,对每个运动员位置进行检测,得到多个包含运动员的检测框,其中yolo-v3使用的是经过COCO数据库预训练的参数;
S13、对于每个运动员检测框,按照检测框的位置和大小,对L帧随机抽取的图片都进行截取,得到L张检测框大小的分割图;
S14、对每个截取的分割图,转换成标准大小,将L张同个检测框的分割图按时间顺序叠加,得到相应的图像块,将图像块送入三维残差卷积神经网络进行特征提取,其中三维残差卷积网络使用经过Kinetics预训练的34层三维残差卷积网络参数,特征取残差网络最后一个池化层的输出。
作为优选的技术方案,步骤S2中,所述图卷积层的公式如下:
w′ij=αij
其中Θ∈RF′xF,a∈R2F′为可学习参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010265812.4/2.html,转载请声明来源钻瓜专利网。





