[发明专利]视频片段检索方法、装置、介质与电子设备有效
申请号: | 202110448436.7 | 申请日: | 2021-04-25 |
公开(公告)号: | CN113128431B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 徐常胜;高君宇;吴子越;姚寒星 | 申请(专利权)人: | 北京亮亮视野科技有限公司;中国科学院自动化研究所 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/80;G06V10/82;G06K9/62;G06F40/30;G06N3/04 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海;袁礼君 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 片段 检索 方法 装置 介质 电子设备 | ||
1.一种视频片段检索方法,其特征在于,包括:
将原始视频分割为多个候选片段;
提取每个所述候选片段的视觉特征;
在获取到查询语句时,解析所述查询语句中的语义特征,具体包括:
将所述查询语句分割为不同的语义角色,获取所述语义角色的角色特征;
基于全局-动词-名词的层级结构将所述语义角色构造为语义角色树;
获取所述语义角色树中语义角色之间的关系特征;
基于所述角色特征和所述关系特征生成所述查询语句的语义特征;
将所述语义特征与所述候选片段的视觉特征进行融合,得到所述候选片段的融合特征,具体包括:
基于预设的神经网络全连接层的超参数对所述语义特征进行预处理,得到预处理特征;
基于激活函数将所述预处理特征转化为激活特征;
将所述激活特征和所述视觉特征执行哈达玛积运算,得到所述候选片段的融合特征;以及
将所述候选片段的融合特征输入多头注意力机制模型学习所述候选片段之间的时序关系;
基于所述时序关系更新所述融合特征;
基于所述融合特征从所述多个候选片段中检索与所述查询语句匹配的视频片段,具体包括:
对三个层级的所述融合特征分配可学习的权重,所述三个层级为所述全局-动词-名词的层级结构;
将分配所述权重后的三个层级的所述融合特征进行融合相加,得到每个所述候选片段的分数,其中,通过分配可学习的权重将三个层级的特征相加融合,得到融合后的特征,基于Predictor函数对所述融合后的特征进行预测得到每个所述候选片段的分数;
基于所述分数确定匹配度,以由所述匹配度确定与所述查询语句匹配的所述视频片段。
2.根据权利要求1所述的视频片段检索方法,其特征在于,所述将所述查询语句分割为不同的语义角色,获取所述语义角色的角色特征包括:
基于语言表征模型将所述查询语句分割为所述语义角色;
基于双向长短期记忆网络Bi-LSTM将所述语义角色对应的单词转化为嵌入向量;
基于注意力机制策略与所述嵌入向量从所述语义角色树中获取所述全局的角色特征、所述动词的角色特征和所述名词的角色特征。
3.根据权利要求2所述的视频片段检索方法,其特征在于,所述基于全局-动词-名词的层级结构将所述语义角色构造为语义角色树包括:
基于名词节点的语义角色,与对应的动词节点相连;以及
将所述动词节点与全局节点相连,构造出所述语义角色树。
4.根据权利要求2所述的视频片段检索方法,其特征在于,所述获取所述语义角色树中语义角色之间的关系特征包括:
基于平均池化操作获取所述语义角色树中相邻节点之间的传递信息,基于所述传递信息表示所述语义角色之间的关系特征。
5.根据权利要求1至4中任一项所述的视频片段检索方法,其特征在于,所述提取每个所述候选片段的视觉特征包括:
基于预训练的3D卷积神经网络模型提取所述候选片段的视觉特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亮亮视野科技有限公司;中国科学院自动化研究所,未经北京亮亮视野科技有限公司;中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110448436.7/1.html,转载请声明来源钻瓜专利网。