[发明专利]一种海量视频特征提取、存储和检索方法及系统有效
申请号: | 201910047518.3 | 申请日: | 2019-01-18 |
公开(公告)号: | CN109815364B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 李传朋;顾寅铮;谢锦滨 | 申请(专利权)人: | 上海极链网络科技有限公司 |
主分类号: | G06F16/73 | 分类号: | G06F16/73;G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 31251 上海硕力知识产权代理事务所(普通合伙) | 代理人: | 郭桂峰 |
地址: | 202163 上海市奉贤区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 特征提取 存储和检索 海量视频 哈希 视频处理技术 地标识别 地标信息 哈希索引 间隔采样 快速检索 视频分片 视频特征 视频信息 输入图片 图片检索 信息库 关键帧 地标 索引 匹配 检索 存储 视频 | ||
1.一种海量视频特征提取方法,其特征在于:包括以下步骤:
a、将视频输入到深度卷积神经网络;
b、深度卷积神经网络对视频进行特征提取;
c、得到视频特征 ;
其中,所述深度卷积神经网络以ResNet101为基础,其conv-5包括c5-1、c5-2和c5-3,在conv-5进行attention操作如下:
c5-1 连接一层卷积核为3x3的卷积并输出512个特征图,再接一层3x3的卷积并输出一张特征图,该特征图作为spatial方向的attention map;
c5-2 连接一层1x1的卷积,保持维度2048维不变,并做全局池化操作,得到channel方向的attention map;
其特征计算公式如下:
其中,Fc-3表示c5-3层的特征图,表示矩阵元素乘法操作,表示矩阵元素加法操作,Ms和Mc分别表示spatial attention操作和channel attention操作;attention最后一层卷积经过Generalized-mean pooling输出2048维的特征向量,并使用L2归一化特征。
2.根据权利要求1所述的一种海量视频特征提取方法,其特征在于:所述深度卷积神经网络的损失函数为contrastive loss,训练集为structure-from-motion,训练完成后,分别固定基础模型参数,训练512维的哈希编码层,以及支持4784个地标的全连接层。
3.根据权利要求2所述的一种海量视频特征提取方法,其特征在于:训练所述深度卷积神经网络提取特征后,增加一层2048维的全连接层FC,并对特征和FC进行concat操作,组成4096维特征,经过pca降维至2048,作为最终的特征。
4.一种基于深度卷积神经网络的海量视频特征提取系统,其特征在于:所述深度卷积神经网络以ResNet101为基础,其ResNet101上的conv-5模块包括c5-1、c5-2和c5-3以及attention操作模块,attention操作模块包括spatial attention操作模块、channelattention操作模块和最终操作模块,其中:
spatial attention操作模块用于处理c5-1连接一层卷积核为3x3的卷积并输出512个特征图,再接一层3x3的卷积并输出一张特征图;
channel attention操作模块用于处理c5-2连接一层1x1的卷积,保持维度2048维不变,并做全局池化操作;
最终操作模块用于处理c5-1、c5-2和c5-3之间的关系得出最终的特征;
其特征计算公式如下:
其中,Fc-3表示c5-3层的特征图,表示矩阵元素乘法操作,表示矩阵元素加法操作,Ms和Mc分别表示spatial attention操作和channel attention操作;attention最后一层卷积经过Generalized-mean pooling输出2048维的特征向量,并使用L2归一化特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海极链网络科技有限公司,未经上海极链网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910047518.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:歌词内容的生成方法、装置、终端及存储介质
- 下一篇:用于处理视频的方法和装置