[发明专利]通过影像查询定位视频中未预习的活动的方法在审
申请号: | 201910621444.X | 申请日: | 2019-07-10 |
公开(公告)号: | CN110378269A | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 赵洲;姜伟昊;张竹;林志杰;宋井宽;蔡登;陈漠沙;仇伟 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/62;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 影像查询 定位视频 视频 转换器 预定义动作 语义 目标片段 区域表示 视频内容 位置编码 编码器 定位器 细粒度 堆叠 多层 推理 修饰 注意力 检索 影像 图像 模糊 敏感 融合 学习 | ||
本发明公开了一种通过影像查询定位视频中未预习的活动的方法。该方法通过相对位置编码设计了一种新颖的区域自注意力方法来学习细粒度图像的区域表示,从而可以消除在影像查询中语义上不必要内容的影响;使用了一种多层堆叠的转换器编码器,建立了影像与视频内容的多步融合与推理,从而处理了不精确的影像查询的模糊定位;使用了一个顺序敏感定位器去直接检索时间的边界,从而可以精确确定目标片段的边界;相比于一般的动作定位方法,本方法突破了预定义动作的限制,并且可通过影像查询定位到视频中未经预习的活动。本发明在对未修饰视频进行动作定位中所取得的效果相比于传统方法更好。
技术领域
本发明涉及视频中活动定位,尤其涉及一种通过影像查询定位视频中未预习的活动的方法。
背景技术
在未修饰的视频中进行动作定位是视频理解领域的一个重要主题。随着视频数据的快速增长,动作理解在计算机视觉领域得到了更多的关注。早期的一些方法主要关注于对只包含一种活动的修正过的视频片段的动作识别。最近的一些方法已经在动作定位上取得了巨大的进步,他们在一段很长且未经修饰的视频中检索多样的活动,并且预测这些活动在时间上的边界。但是,目前的动作定位的方法都受制于预定义的动作。尽管动作组可以设置的较大,定位现实世界中各种各样的复杂活动依旧是一件困难的事。
通过观察,本方法是基于影像的活动定位,旨在能通过影像查询定位到视频中未经预习的活动。特别地,本方法的输入是未经修饰的视频和影像查询。影像查询描述了用户所感兴趣的活动。视频包含了和这项活动在语义上相关的片段。然后,本方法可以确定目标片段开始和结束的边界,即使这项活动从未在训练数据中出现过。
本方法通过相对位置编码设计了一种新颖的区域自注意力方法来学习细粒度图像的区域表示,从而可以消除在影像查询中语义上不必要内容的影响。本方法使用了一种多层堆叠的转换器编码器,建立了影像与视频内容的多步融合与推理,从而处理了不精确的影像查询的模糊定位。本方法使用了一个顺序敏感定位器去直接检索时间的边界,从而可以精确确定目标片段的边界。本方法重新组织了数据组ActivityNet,构建了一个用于基于影像活动定位的新数据组ActivityIBAL,并且通过大量的实验证明了本方法的有效性。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中无法定位未出现在训练数据中且未经预习的活动,本发明提供了通过影像查询定位视频中未预习的活动的方法。本发明采用的具体技术方案是:
通过影像查询定位视频中未预习的活动的方法,包含如下步骤:
1.提取图像的基础区域特征,通过相对位置编码设计区域自注意力方法,得到细粒度图像的区域表示;
2.在转换器框架中添加帧序列的时间信息,引入步骤1)得到的细粒度图像的区域表示,设计N层堆叠的转换器编码器,得到最终的语义表示;其中每层转换器编码器都包含一个本地多路自注意力子层、一个多路注意力子层和一个前馈子层;
3.根据步骤2得到的最终的语义表示,使用累积注意力合计得到目标视频片段的双向内容表示,预测目标视频片段的时间边界集合,进一步得到预测开始帧和预测结束帧。
进一步的,所述的步骤1具体为:
1.1使用一个前训练卷积网络提取图像中包含m个基础区域的特征,构成区域矩阵R,并得到由前训练卷积网络的最后一层卷积层输出的特征图;其中ri表示第i个基础区域的特征数据,ri包含第i个基础区域的对象和关联的位置向量pi=(xi,yi,wi,hi),pi表示第i个基础区域的位置向量,xi和yi表示第i个基础区域的中心坐标,wi和hi表示第i个基础区域的宽度和高度,dr是区域矩阵R的维数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910621444.X/2.html,转载请声明来源钻瓜专利网。