[发明专利]基于图卷积网络和长短时记忆网络的事件预测方法有效
| 申请号: | 202010265812.4 | 申请日: | 2020-04-07 |
| 公开(公告)号: | CN111488815B | 公开(公告)日: | 2023-05-09 |
| 发明(设计)人: | 郑伟诗;黄嘉胜 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06N3/0442;G06N3/045;G06N3/0464;G06N3/084 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 图卷 网络 短时记忆 事件 预测 方法 | ||
1.基于图卷积网络和长短时记忆网络的事件预测方法,其特征在于,包括下述步骤:
S1、对篮球比赛视频单位时间视频频段的个体进行检测,依据检测到的个人位置,在空间和时间上进行视频切片,再将切片后的视频送进三维残差卷积网络进行特征提取;
S2、构建基于图卷积神经网络的篮球进分时间预测模型,所述图卷积神经网络用于对具有节点和边的图模型进行特征变换和表征,从而使得每个节点不仅包含该节点所具有特征,同时包含与该节点相邻节点的信息;
S3、基于图卷积神经网络和长短时记忆神经实现对一段篮球视频下一单位长度进球事件的预测,先将输入的T秒长的篮球视频,按单位时间长度1秒分为T段视频片段,对于每个视频片段,用图卷积网络进行特征提取,最后将T个视频片段的特征按顺序输入长短时记忆神经网络进行预测;
所述步骤S3具体为:
将每个运动员视为图的一个节点,其节点特征为xi;将所有运动员节点两两相连,即可得到全连接的无向图,将节点i和节点j的边权重定义为:
其中j∈N(i)
将节点i连向自己的边权重定义为:
其中0p1,p为超参数
在对上面的边权重用Softmax函数进行归一化,得到:
经过上面的定义,得到了边权重集合使得边权重具有以下性质:
0<wij<1
wii=p
由单位时间长视频片段构建图后,得到了图的节点特征集合X和边权重集合W,我们将其输入所述图卷积神经网络,可得到图的全局特征,将其表示为:
hgraph=g(X,W)
其中函数g代表图卷积神经网络,hgraph为图卷积神经网络输出的全局特,最后我们将hgraph与场景特征xscene拼接在一起,作为单位时间长视频片段的特征h,表示为:
h=hgraph||xscene
场景特征的加入使得提取的特征既有局部信息又有整体信息;
在对T个视频片段都提取特征并按时间顺序排列,得到特征序列{h1,h2,...,hT},将其作为T步长的多输入单输出的长短时记忆神经网络的输入,得到LSTM输出,并将其线性变换归一化,得到预测的篮球进球事件是否发生的后验概率为:
p(y|h1,h2,...,hT)=φ(WoutLSTM(h1,h2,...,hT))
其中,φ为softmax激活函数,Wout是可学习参数矩阵,其行数为2,LSTM代表长短时记忆神经网络。
2.根据权利要求1所述基于图卷积网络和长短时记忆网络的事件预测方法,其特征在于,步骤S1具体为:
S11、随机采样L帧RGB图像,并按时间顺序排列;
S12、将随机采样到的最后一帧RGB图像送进yolo-v3检测网络,对每个运动员位置进行检测,得到多个包含运动员的检测框,其中yolo-v3使用的是经过COCO数据库预训练的参数;
S13、对于每个运动员检测框,按照检测框的位置和大小,对L帧随机抽取的图片都进行截取,得到L张检测框大小的分割图;
S14、对每个截取的分割图,转换成标准大小,将L张同个检测框的分割图按时间顺序叠加,得到相应的图像块,将图像块送入三维残差卷积神经网络进行特征提取,其中三维残差卷积网络使用经过Kinetics预训练的34层三维残差卷积网络参数,特征取残差网络最后一个池化层的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010265812.4/1.html,转载请声明来源钻瓜专利网。





