[发明专利]一种基于跨模态物体推理网络的跨模态视频时刻检索方法有效
申请号: | 202110766199.9 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113204675B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 徐行;王公勉;蒋寻;沈复民 | 申请(专利权)人: | 成都考拉悠然科技有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06K9/62 |
代理公司: | 成都君合集专利代理事务所(普通合伙) 51228 | 代理人: | 尹新路 |
地址: | 610000 四川省成都市自由贸易试验区成都高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 跨模态 物体 推理 网络 视频 时刻 检索 方法 | ||
本发明公开了一种基于跨模态物体推理网络的跨模态视频时刻检索方法,属于计算机视觉中的跨模态检索领域。本发明使用细粒度的物体级视频特征来进行跨模态视频时刻检索。同时,使用基于跨模态物体推理网络的跨模态视频时刻检索方法完成时刻检索,更加充分的利用了物体之间隐含的信息以及时序上的信息来得到检索结果,以达到提高检索结果的准确性的目的。
技术领域
本发明属于计算机视觉中的跨模态检索领域,具体地说,涉及一种基于跨模态物体推理网络的跨模态视频时刻检索方法。
背景技术
跨模态视频时刻检索是跨模态视频检索的子任务。其目标是根据查询文本,在一段视频中找出与文本相对应的视频片段。和跨模态视频检索不同,跨模态视频时刻检索需要在指定视频中获得与文本对应的视频片段的开始时间和结束时间,而不是文本与整段视频的对应关系。跨模态视频时刻检索在视频问答,视频定位,视频描述等领域都有广泛的应用。
研究技术尝试利用前沿的深度学习技术改善模型表现力,基于深度学习的跨模态视频时刻检索技术不断涌现。相较于手工设计数据的特征,深度学习方法可以自动学习数据的特征并由此对数据进行分类与回归,因此具有更高的鲁棒性。其中,基于深度学习的跨模态视频时刻检索方法主要有以下三种技术路线:
1)基于候选片段的跨模态视频时刻检索方法:受到基于锚点的目标检测方法的启发,基于候选片段的跨模态视频时刻检索方法首先通过滑动窗口生成多尺度的候选片段,然后融合视频特征和文本特征,利用融合后的特征预测匹配分数,来度量候选片段和查询文本之间的相似性。
2)无候选片段的跨模态视频时刻检索方法:无候选片段的跨模态视频时刻检索方法使用帧级的视频表示而不是生成候选片段的特征来预测与查询文本对应的视频片段。该类方法利用循环神经网络或者注意力机制来获得与文本相关上下文信息以得到准确的开始时间和结束时间。
3)基于强化学习的跨模态视频时刻检索方法:为了解决跨模态视频时刻检索的效率问题,基于强化学习的跨模态视频时刻检索方法主动地去选择一部分帧或几个视频片段进行观察,然后观察得到的信息进行预测,而不需要观察整段视频的视频特征。这类方法在效率上有较大的优势。
目前跨模态视频时刻检索采用的方法主要为基于候选片段的跨模态视频时刻检索方法。相较于其他方法,该类方法在检索的准确率上有较大的优势。
但现有的时刻检索方法仍有很大的不足,如:视频特征的表示不够精细、视频特征中包含较多的噪声没有去除、时间建模不够充分等。以上问题均一定程度上导致了时刻检索准确率的下降。
发明内容
本发明的目的在于克服上述现有技术的不足导致时刻检索准确率下降的缺陷,提供了一种基于跨模态物体推理网络的跨模态视频时刻检索方法;本发明使用了细粒度的物体级视频特征来进行跨模态视频时刻检索。同时,使用基于跨模态物体推理网络的跨模态视频时刻检索方法完成时刻检索,更加充分的利用了物体之间隐含的信息以及时序上的信息来得到检索结果,以达到提高检索结果的准确性的目的。
本发明具体实现内容如下:
本发明提出了一种基于跨模态物体推理网络的跨模态视频时刻检索方法,先使用预训练目标检测网络提取物体级视频特征,和基于注意力的文本特征提取模块提取全局文本特征和关系文本特征,然后通过跨模态物体推理网络对物体之间的隐含关系进行推理,最后使用跨模态时刻定位模块完成时刻检索,具体步骤如下:
步骤S1:选择训练数据集;所述训练数据集包括视频和文本;
步骤S2:构建预训练目标检测网络,对于步骤S1中训练数据集中的每一段视频中的每一帧,使用预训练目标检测网络提取物体级视频特征,所述预训练目标检测网络为Faster R-CNN;
步骤S3:构建基于注意力的文本特征提取模块的网络结构,对于步骤S1中训练数据集中的文本,使用文本特征提取模块生成全局文本特征和关系文本特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都考拉悠然科技有限公司,未经成都考拉悠然科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110766199.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种混凝土耐磨地坪及其制备工艺
- 下一篇:无线通信网络质量监控系统及方法