[发明专利]一种基于查询的自底向上视频定位方法和系统在审

申请号：	202011278817.7	申请日：	2020-11-16
公开（公告）号：	CN112348102A	公开（公告）日：	2021-02-09
发明（设计）人：	庄越挺;肖俊;汤斯亮;吴飞;浦世亮;张世峰;任文奇	申请（专利权）人：	浙江大学;杭州海康威视数字技术股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/00;G06F16/783
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	郑海峰
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于查询向上视频定位方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于查询的自底向上视频定位方法，其特征在于，包括如下步骤：

1)将查询内容Query的Glove特征和待定位视频Ref的C3D特征输入到图卷积网络中融合得到新的特征图其中T是待定位视频的长度，即视频帧数，D是单视频帧的特征向量的长度；

2)将特征图输入到边界回归网络中预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d，right-d)；同时，将特征图输入到置信度分类网络中预测出每一视频帧的置信度s；

3)利用帧在待定位视频Ref上的位置和其预测的左右边界的偏移量(left-d，right-d)，计算出每一视频帧的预测视频片段在Ref上的起始位置和终止位置(start，end)；

4)获取置信度s大于最大置信度设定的百分比，且与最大置信度对应的帧预测的起止位置(start，end)有重叠交叉的帧，将这些帧所对应的起止位置(start，end)放入到临时池中；最终取临时池中最小的起始位置和最大的终止位置作为最终预测的起止位置；

5)在网络训练环节，网络结构损失函数L分为边界回归损失和置信度分类损失两部分；使用梯度下降算法对L进行优化，并更新网络权重，返回步骤1)迭代训练不断提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距；迭代训练结束后，得到最终的图卷积网络、边界回归网络和置信度分类网络的权重；保存训练好的网络。

2.根据权利要求1所述的基于查询的自底向上视频定位方法，其特征在于，所述的步骤1)为：

通过编码器对Query的Glove特征和待定位视频Ref的C3D特征进行编码，然后对两个编码后的特征通过矩阵运算得到特征图H；将特征图H经过图卷积操作得到新的特征图

3.根据权利要求1或2所述的基于查询的自底向上视频定位方法，其特征在于，所述的步骤1)具体为：

首先通过由多个卷积层、正则化层、自我注意层组成的编码器Encoder对Query的Glove特征和待定位视频Ref的C3D特征分别进行编码得到和

接着进行如下矩阵运算将和融合为特征图H：

H＝Encoder([v_i，a_i，v_i⊙a_i，v_i⊙b_i])

其中S是和的相似矩阵，是S的行正则化矩阵，是S关于列正则化后的转置矩阵，⊙是点乘操作，i代表矩阵的行号；

然后将H通过步长为2的卷积层下采样3个具有金字塔结构的特征集合其中T_i+1＝T_i/2；接下来分别对H_i进行如下图卷积操作得到

X_i＝C_iH_i，Y＝((I-A_adj)X)W，

其中C_i是H_i通过一层卷积得到的矩阵，W是权重，I是单位矩阵，A_adj是邻接矩阵，是C_i转置矩阵，X＝[X₁；X₂；X₃]，Y＝[Y₁；Y₂；Y₃]；最后将H₁，H₂缩放为与H₃相同的大小，并将它们拼接得到新的特征图