[发明专利]一种基于跨模态物体推理网络的跨模态视频时刻检索方法有效
申请号: | 202110766199.9 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113204675B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 徐行;王公勉;蒋寻;沈复民 | 申请(专利权)人: | 成都考拉悠然科技有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06K9/62 |
代理公司: | 成都君合集专利代理事务所(普通合伙) 51228 | 代理人: | 尹新路 |
地址: | 610000 四川省成都市自由贸易试验区成都高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 跨模态 物体 推理 网络 视频 时刻 检索 方法 | ||
1.一种基于跨模态物体推理网络的跨模态视频时刻检索方法,其特征在于:具体包括以下步骤:
步骤S1:选择训练数据集;所述训练数据集为视觉基因数据集,包括视频和文本对及其真实检索片段;
步骤S2:构建预训练目标检测网络,使用预训练目标检测网络对于步骤S1中训练数据集中的每一段视频中的每一帧都进行物体级视频特征的提取,所述预训练目标检测网络采用Faster R-CNN网络;
步骤S3:构建基于注意力机制的文本特征提取模块,对于步骤S1中训练数据集中的文本,使用文本特征提取模块生成全局文本特征和关系文本特征;
步骤S4:构建跨模态物体推理网络,利用步骤S2中提取的物体级视频特征和步骤S3中的生成的关系文本特征,通过跨模态物体推理网络生成经过推理的物体级视频特征;
步骤S5:构建基于注意力机制的物体特征融合模块,利用步骤S3中的关系文本特征来对经过推理的物体级视频特征进行融合,从而生成相应文本的帧级视频特征;
步骤S6:构建跨模态时刻定位模块,利用步骤S3中的提取的全局文本特征和步骤S5中的相应文本的帧级视频特征来定位目标时刻,
步骤S7:采用Adam优化器进行训练,得到基于跨模态物体推理网络的跨模态视频时刻检索模型;并定义用于对跨模态物体推理网络的跨模态视频时刻检索模型进行约束的损失函数L;
步骤S8:使用训练完成的基于跨模态物体推理网络的跨模态视频时刻检索模型对实际需要进行检索的视频和文本对进行时刻检索,并验证训练完成的基于跨模态物体推理网络的跨模态视频时刻检索模型的网络效果;
所述步骤S2具体包括:
步骤S21:构建预训练目标检测网络,并加载预训练目标检测网络在视觉基因数据集上训练得到的参数;
步骤S22:将步骤S1中训练数据集中的每一段视频中的每一帧输入预训练目标检测网络,检测得到K个物体,并对应得到K个候选框及K个候选框的坐标和置信度;
步骤S23:对于步骤S22中检测出的K个物体,提取其在原特征图上经过RoI Pooling层处理后的特征,并作为每个物体对应的物体特征;
步骤S24:构建多层感知机对步骤S22中每一个物体的候选框的坐标进行编码得到对应的嵌入向量;然后将嵌入向量与步骤S23中的物体特征进行级联后再通过一层全连接网络处理,得到物体级视频特征;
步骤S25:对每一帧视频得到的多个物体级视频特征,在首个物体对应的位置插入一个上下文物体特征得到最终的物体级视频特征;所述上下文物体特征为可训练的向量;
所述步骤S3具体包括:
步骤S31:使用双向门控循环网络提取步骤S1中训练数据集中文本的语义信息;
步骤S32:对步骤S31中双向门控循环网络提取的语义信息中的每一个单词的输出做平均池化,得到全局文本特征;
步骤S33:将步骤S32中的全局文本特征与步骤S31中双向门控循环网络提取的语义信息中的每一个单词的输出做级联,并同过一层全连接网络生成每一个单词的权重;
步骤S34:使用步骤S33中生成的权重对步骤S31中双向门控循环网络提取的语义信息中的每一个单词的输出做加权平均,得到关系文本特征;
所述步骤S4具体包括:所述跨模态物体推理网络包括M个跨模态物体推理模块,M为自定义的值;每个跨模态物体推理模块包括跨模态增强子模块、物体关系建模子模块和时序上下文平移子模块共三个子模块;所述跨模态物体推理模块执行的操作具体包括:
步骤S41:构建跨模态增强子模块,利用步骤S34中得到的关系文本特征对步骤S2中的物体级视频特征进行增强,得到增强物体特征;
步骤S42:构建物体关系建模子模块,使用多头自注意力机制对步骤S41得到的增强物体特征进行物体关系推理,得到关系可知的物体特征;
步骤S43:构建时序上下文平移子模块,对每一帧视频在步骤S25中增加的上下文物体特征进行时序平移操作,得到上下文可知的物体特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都考拉悠然科技有限公司,未经成都考拉悠然科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110766199.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种混凝土耐磨地坪及其制备工艺
- 下一篇:无线通信网络质量监控系统及方法