[发明专利]一种基于查询的自底向上视频定位方法和系统在审
| 申请号: | 202011278817.7 | 申请日: | 2020-11-16 |
| 公开(公告)号: | CN112348102A | 公开(公告)日: | 2021-02-09 |
| 发明(设计)人: | 庄越挺;肖俊;汤斯亮;吴飞;浦世亮;张世峰;任文奇 | 申请(专利权)人: | 浙江大学;杭州海康威视数字技术股份有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06F16/783 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 查询 向上 视频 定位 方法 系统 | ||
1.一种基于查询的自底向上视频定位方法,其特征在于,包括如下步骤:
1)将查询内容Query的Glove特征和待定位视频Ref的C3D特征输入到图卷积网络中融合得到新的特征图其中T是待定位视频的长度,即视频帧数,D是单视频帧的特征向量的长度;
2)将特征图输入到边界回归网络中预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d,right-d);同时,将特征图输入到置信度分类网络中预测出每一视频帧的置信度s;
3)利用帧在待定位视频Ref上的位置和其预测的左右边界的偏移量(left-d,right-d),计算出每一视频帧的预测视频片段在Ref上的起始位置和终止位置(start,end);
4)获取置信度s大于最大置信度设定的百分比,且与最大置信度对应的帧预测的起止位置(start,end)有重叠交叉的帧,将这些帧所对应的起止位置(start,end)放入到临时池中;最终取临时池中最小的起始位置和最大的终止位置作为最终预测的起止位置;
5)在网络训练环节,网络结构损失函数L分为边界回归损失和置信度分类损失两部分;使用梯度下降算法对L进行优化,并更新网络权重,返回步骤1)迭代训练不断提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距;迭代训练结束后,得到最终的图卷积网络、边界回归网络和置信度分类网络的权重;保存训练好的网络。
2.根据权利要求1所述的基于查询的自底向上视频定位方法,其特征在于,所述的步骤1)为:
通过编码器对Query的Glove特征和待定位视频Ref的C3D特征进行编码,然后对两个编码后的特征通过矩阵运算得到特征图H;将特征图H经过图卷积操作得到新的特征图
3.根据权利要求1或2所述的基于查询的自底向上视频定位方法,其特征在于,所述的步骤1)具体为:
首先通过由多个卷积层、正则化层、自我注意层组成的编码器Encoder对Query的Glove特征和待定位视频Ref的C3D特征分别进行编码得到和
接着进行如下矩阵运算将和融合为特征图H:
H=Encoder([vi,ai,vi⊙ai,vi⊙bi])
其中S是和的相似矩阵,是S的行正则化矩阵,是S关于列正则化后的转置矩阵,⊙是点乘操作,i代表矩阵的行号;
然后将H通过步长为2的卷积层下采样3个具有金字塔结构的特征集合其中Ti+1=Ti/2;接下来分别对Hi进行如下图卷积操作得到
Xi=CiHi,Y=((I-Aadj)X)W,
其中Ci是Hi通过一层卷积得到的矩阵,W是权重,I是单位矩阵,Aadj是邻接矩阵,是Ci转置矩阵,X=[X1;X2;X3],Y=[Y1;Y2;Y3];最后将H1,H2缩放为与H3相同的大小,并将它们拼接得到新的特征图
4.根据权利要求1所述的基于查询的自底向上视频定位方法,其特征在于,所述边界回归网络输入数据是输出数据是置信度分类网络输入数据是输出数据是
5.根据权利要求1所述的基于查询的自底向上视频定位方法,其特征在于,所述步骤5)中,边界回归网络中的每一帧的监督数据t*为(i-ts,te-i),其中i为该帧在待定位视频Ref的位置;ts,te分别为真实视频片段GT-v在Ref的起止位置;置信度分类网络中的每一帧的监督数据
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学;杭州海康威视数字技术股份有限公司,未经浙江大学;杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011278817.7/1.html,转载请声明来源钻瓜专利网。





