[发明专利]通过影像查询定位视频中未预习的活动的方法在审
申请号: | 201910621444.X | 申请日: | 2019-07-10 |
公开(公告)号: | CN110378269A | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 赵洲;姜伟昊;张竹;林志杰;宋井宽;蔡登;陈漠沙;仇伟 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/62;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 影像查询 定位视频 视频 转换器 预定义动作 语义 目标片段 区域表示 视频内容 位置编码 编码器 定位器 细粒度 堆叠 多层 推理 修饰 注意力 检索 影像 图像 模糊 敏感 融合 学习 | ||
1.一种通过影像查询定位视频中未预习的活动的方法,其特征在于包括如下步骤:
1)提取图像的基础区域特征,通过相对位置编码设计区域自注意力方法,得到细粒度图像的区域表示;
2)在转换器框架中添加帧序列的时间信息,引入步骤1)得到的细粒度图像的区域表示,设计N层堆叠的转换器编码器,得到最终的语义表示;其中每层转换器编码器都包含一个本地多路自注意力子层、一个多路注意力子层和一个前馈子层;
3)根据步骤2)得到的最终的语义表示,使用累积注意力合计得到目标视频片段的双向内容表示,预测目标视频片段的时间边界集合,进一步得到预测开始帧和预测结束帧。
2.根据权利要求1所述的通过影像查询定位到视频中未经预习的活动的方法,其特征在于所述的步骤1)具体为:
1.1)使用一个前训练卷积网络提取图像中包含m个基础区域的特征,构成区域矩阵R,并得到由前训练卷积网络的最后一层卷积层输出的特征图;其中ri表示第i个基础区域的特征数据,ri包含第i个基础区域的对象和关联的位置向量pi=(xi,yi,wi,hi),pi表示第i个基础区域的位置向量,xi和yi表示第i个基础区域的中心坐标,wi和hi表示第i个基础区域的宽度和高度,dr是区域矩阵R的维数;
1.2)将步骤1.1)得到的特征图输入池化层,得到全局影像特征向量fg;
1.3)根据步骤1.1)得到的区域矩阵R和步骤1.2)得到的全局影像特征向量fg,采用区域自注意力方法建立基础区域之间的信息交互,最终得到细粒度图像的区域表示,具体步骤如下:
1.3.1)根据步骤1.1)得到的区域矩阵R,设置查询序列关键字和值其中n1表示查询序列的个数,n2表示关键字和值的个数,d1表示Q和K的维数,d2表示V的维数;
1.3.2)根据步骤1.3.1)所述的Q,K,V进行缩放点乘注意力运算:
其中Softmax(·)表示Softmax运算符;
1.3.3)将第i个基础区域与第j个基础区域组成一个区域对,根据pi和pj建立信息交互,得到区域对的相对位置向量
xij=(xi-xj)/wj,yij=(yi-yj)/hj
wij=log(wi/wj),hij=log(hi/hj)
其中表示第i个基础区域和第j个基础区域的相对位置向量,i=1,2,…,m;j=1,2,…,m;
1.3.4)将步骤1.3.3)得到的区域对的相对位置向量映射到dr维,由表示,其中Wr代表映射权重,
1.3.5)重复步骤1.3.3)-步骤1.3.4),得到第i个基础区域的相对位置矩阵
1.3.6)根据步骤1.3.5)得到的相对位置矩阵得到第i个基础区域的区域自注意力
1.3.7)通过残差连接ri、和fg,并且参照层级正常化得到第i个基础区域的细粒度图像表示
其中LayerNorm(·)表示层级正常化运算,Wg表示映射矩阵;
1.3.8)重复步骤1.3.3)-步骤1.3.7),直至得到m个基础区域的细粒度图像表示,构成细粒度图像的区域表示Hr,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910621444.X/1.html,转载请声明来源钻瓜专利网。