[发明专利]通过影像查询定位视频中未预习的活动的方法在审

申请号：	201910621444.X	申请日：	2019-07-10
公开（公告）号：	CN110378269A	公开（公告）日：	2019-10-25
发明（设计）人：	赵洲;姜伟昊;张竹;林志杰;宋井宽;蔡登;陈漠沙;仇伟	申请（专利权）人：	浙江大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/32;G06K9/62;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	郑海峰
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种通过影像查询定位视频中未预习的活动的方法。该方法通过相对位置编码设计了一种新颖的区域自注意力方法来学习细粒度图像的区域表示，从而可以消除在影像查询中语义上不必要内容的影响；使用了一种多层堆叠的转换器编码器，建立了影像与视频内容的多步融合与推理，从而处理了不精确的影像查询的模糊定位；使用了一个顺序敏感定位器去直接检索时间的边界，从而可以精确确定目标片段的边界；相比于一般的动作定位方法，本方法突破了预定义动作的限制，并且可通过影像查询定位到视频中未经预习的活动。本发明在对未修饰视频进行动作定位中所取得的效果相比于传统方法更好。
搜索关键词：	影像查询定位视频视频转换器预定义动作语义目标片段区域表示视频内容位置编码编码器定位器细粒度堆叠多层推理修饰注意力检索影像图像模糊敏感融合学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种通过影像查询定位视频中未预习的活动的方法，其特征在于包括如下步骤：1)提取图像的基础区域特征，通过相对位置编码设计区域自注意力方法，得到细粒度图像的区域表示；2)在转换器框架中添加帧序列的时间信息，引入步骤1)得到的细粒度图像的区域表示，设计N层堆叠的转换器编码器，得到最终的语义表示；其中每层转换器编码器都包含一个本地多路自注意力子层、一个多路注意力子层和一个前馈子层；3)根据步骤2)得到的最终的语义表示，使用累积注意力合计得到目标视频片段的双向内容表示，预测目标视频片段的时间边界集合，进一步得到预测开始帧和预测结束帧。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910621444.X/，转载请声明来源钻瓜专利网。

上一篇：高光谱快速目标检测方法及系统
下一篇：一种基于质量维度评估参量的人脸识别设备筛选方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]通过影像查询定位视频中未预习的活动的方法在审

专利文献下载