[发明专利]通过影像查询定位视频中未预习的活动的方法在审
申请号: | 201910621444.X | 申请日: | 2019-07-10 |
公开(公告)号: | CN110378269A | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 赵洲;姜伟昊;张竹;林志杰;宋井宽;蔡登;陈漠沙;仇伟 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/62;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种通过影像查询定位视频中未预习的活动的方法。该方法通过相对位置编码设计了一种新颖的区域自注意力方法来学习细粒度图像的区域表示,从而可以消除在影像查询中语义上不必要内容的影响;使用了一种多层堆叠的转换器编码器,建立了影像与视频内容的多步融合与推理,从而处理了不精确的影像查询的模糊定位;使用了一个顺序敏感定位器去直接检索时间的边界,从而可以精确确定目标片段的边界;相比于一般的动作定位方法,本方法突破了预定义动作的限制,并且可通过影像查询定位到视频中未经预习的活动。本发明在对未修饰视频进行动作定位中所取得的效果相比于传统方法更好。 | ||
搜索关键词: | 影像查询 定位视频 视频 转换器 预定义动作 语义 目标片段 区域表示 视频内容 位置编码 编码器 定位器 细粒度 堆叠 多层 推理 修饰 注意力 检索 影像 图像 模糊 敏感 融合 学习 | ||
【主权项】:
1.一种通过影像查询定位视频中未预习的活动的方法,其特征在于包括如下步骤:1)提取图像的基础区域特征,通过相对位置编码设计区域自注意力方法,得到细粒度图像的区域表示;2)在转换器框架中添加帧序列的时间信息,引入步骤1)得到的细粒度图像的区域表示,设计N层堆叠的转换器编码器,得到最终的语义表示;其中每层转换器编码器都包含一个本地多路自注意力子层、一个多路注意力子层和一个前馈子层;3)根据步骤2)得到的最终的语义表示,使用累积注意力合计得到目标视频片段的双向内容表示,预测目标视频片段的时间边界集合,进一步得到预测开始帧和预测结束帧。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910621444.X/,转载请声明来源钻瓜专利网。