[发明专利]基于空间-时间图推理网络的多形态语句视频定位方法有效
申请号: | 202010191264.5 | 申请日: | 2020-03-18 |
公开(公告)号: | CN111414845B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 赵洲;张品涵;张竹 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06N3/0464;G06N3/048;G06N3/08;G06F17/11 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 空间 时间 推理 网络 形态 语句 视频 定位 方法 | ||
1.基于空间-时间图推理网络的多形态语句视频定位方法,其特征在于,包括如下步骤:
S1:针对一段视频,利用Faster-RCNN网络提取视频中每一个帧的视觉特征,构成视频帧的视觉特征集合;并从每一个视频帧中提取K个区域,得到区域特征向量及区域边框矢量,构成视频中帧级别的区域集合;
S2:针对查询语句,首先采用GloVe网络得到查询语句中每个单词的词嵌入向量,然后采用BiGRU网络获得查询语句的单词语义特征集合,最后采用注意力方法进一步得到查询语句的查询特征;
S3:建立空间-时间图编码器,包括一个视频解析层、一个跨模态融合层和T个空间-时间卷积层,首先通过视频解析层将视频解析为空间-时间区域图,然后通过跨模态融合层对步骤S1获得的区域特征向量、步骤S2获得的单词语义特征进行融合,得到跨模态区域特征;再针对跨模态区域特征,通过T个空间-时间卷积层对所述的空间-时间区域图进行T步卷积操作,最终得到关系敏感区域特征;
其特征在于所述步骤S3具体为:
建立空间-时间图编码器,包括一个视频解析层、一个跨模态融合层和T个空间-时间卷积层,所述的空间-时间图编码器的工作步骤如下:
3.1)通过视频解析层将视频解析为空间-时间区域图,所述的空间-时间区域图包含三个子图:每个帧中的隐式空间子图每个帧中的显式空间子图和跨帧的时间动态性子图其中是每一个子图的顶点,三个子图均将每一个对应视频帧中的区域视为其顶点εimp、εexp、εtem分别表示隐式空间子图、显式空间子图、时间动态性子图的边;
3.2)通过跨模态融合层对步骤S1获得的区域特征向量、步骤S2获得的单词语义特征进行融合,得到跨模态区域特征,具体如下:
对于计算区域敏感文本特征,公式如下:
其中,和是参数矩阵,bm是偏置,是参数行向量,表示和sj的相似度,表示注意力权重,是视频中第t帧第i个区域的区域敏感文本特征;
建立一个以语言信息为引导的文本门,公式如下:
其中,σ是sigmoid函数,表示区域的文本门,dr表示区域特征向量的维度;
将连接起来,获得跨模态区域特征公式如下:
其中,⊙是逐元素相乘,表示视频中第t帧第i个区域的跨模态区域特征;
3.3)每一个空间-时间卷积层包括一层空间图卷积层和一层时间图卷积层;
所述的空间图卷积层的工作步骤如下:
针对跨模态区域特征,首先在隐式空间子图上采用隐式图卷积,公式如下:
其中,是在中与相连的区域,是权重参数,Wimp和Uimp表示参数矩阵,表示隐式空间图卷积层的输出;
然后在显式空间子图上采用显式图卷积,公式如下:
αexp=Softmax(Wrsq+bm)
其中,表示显式空间图卷积层的输出,dir(i,j)是边(i,j)的方向,是可选参数矩阵,lab(i,j)是边(i,j)的标签,是可选偏置,是中与连接的区域,Wr是参数矩阵,bm是偏置;αexp是关系系数,且对应于51种标签的权重;表示通过边(i,j)的标签选择的关系权重;
所述的时间图卷积层的工作步骤如下:
在时间动态性子图上采用时间图卷积,公式如下:
其中,和是参数矩阵,dir(i,j)表示选择相应的参数矩阵的边(i,j)的方向,是区域每个邻域的语义系数,表示时间图卷积层的输出,Utem表示参数矩阵;
组合空间图卷积层和时间图卷积层的输出,获得第一个空间-时间卷积层的结果
通过有T个空间-时间卷积层的空间-时间图编码器进行多步编码,得到最终的关系敏感区域特征表示视频中第t帧第i个区域的关系敏感区域特征;
S4:建立空间-时间定位器,包括一个时间定位器和一个空间定位器;针对视频中的关系敏感区域特征,首先通过时间定位器将关系敏感区域特征聚合到帧级别,得到视频中帧级别的关系敏感特征,并与所述的视频帧的视觉特征集合连接起来,获得最终帧特征集合;在每个帧处定义多尺度候选剪辑集合,学习得到最佳的剪辑边界;然后通过空间定位器将查询语句的查询特征和最终帧特征进行积分,得到每个视频帧中的每个区域的匹配分数;
S5:所述的GloVe网络、BiGRU网络、空间-时间图编码器、空间-时间定位器构成STGRN,设计一个多任务损失,以端到端的方式进行训练STGRN;针对经步骤S1处理后的一段视频和待处理的查询语句,通过训练好的STGRN得到每个视频帧中的每个区域的匹配分数;
S6:筛选步骤S5中得到的最高匹配分数对应的帧t和区域i,采用动态选择方法,计算帧t和帧t+1的区域间的链接分数,根据链接分数计算管道的能量,利用Vitervi算法得到能量最大的空间-时间管道,完成视频定位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010191264.5/1.html,转载请声明来源钻瓜专利网。