[发明专利]基于多模态特征融合的高效视频检索模型在审
| 申请号: | 202210210095.4 | 申请日: | 2022-03-04 |
| 公开(公告)号: | CN114564616A | 公开(公告)日: | 2022-05-31 |
| 发明(设计)人: | 刘志;张萌萌 | 申请(专利权)人: | 北方工业大学 |
| 主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/783;G06V10/44;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100144 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 多模态 特征 融合 高效 视频 检索 模型 | ||
本文提出了一种视频检索框架,其包括:视频编码器,其获得输入视频的视频特征表示,包括:多个NetVLAD网络,每个NetVLAD网络包括卷积神经网络(CNN)和NetVLAD层,联接器,其接收所述多个NetVLAD网络的输出,全连接网络,其接收所述联接器的输出;文本编码器,其获得输入文本的文本特征表示;相似度计算单元,其计算所述视频特征表示与所述文本特征表示之间的相似度,以用于确定视频和文本的匹配。
技术领域
本发明涉及视频处理技术和神经网络在视频处理领域中的应用,更具体而言,本发明涉及用于基于神经网络的视频检索的方法、设备和介质。本发明特别适合于在线视频的检索。
背景技术
由于视频捕获动态事件和提供直接视觉和声音感受的能力,视频成为最常用的媒体形式之一。目前,在线视频在视频应用中占据了越来越大的比例。各个在线视频平台中存在数以亿小时计的视频(或短视频),如果我们不能高效地访问这些视频,则这些视频就无法得到有效地利用。因此,如何通过检索来检索相关视频成为关键。
针对数以百万计的视频,显然不可能完全通过人工方式对视频附加合理的标题和内容描述。即使是每个视频在制作时被创造者添加了标题和内容描述,这种标题和内容描述可能也不能完整地概况视频内容用于后续的视频检索。因此,目前大量研究集中在如何使用神经网络来进行高效地视频检索。
对于视频检索,目前存在两种任务:“标题到视频”和“视频到标题”。“标题到视频”是指给出标题形式的检索(例如,“如何盖房子”),检索目标则是该标题能够最佳描述的视频(例如,解释如何盖房子的视频)。这里的“标题”应该表示视频标题、视频表述文字等等与视频内容相关联的各种文本。这里的“视频”狭义上包括随时间采集的图片集(即视觉视频),广义上则包括视觉视频、音频、语音、字幕(嵌入式或单独的字幕文件)、各种音轨(嵌入式或单独的音轨文件)、相关封面(例如DVD光盘中使用的电影封面)、时间标签、位置标签、视频片段(例如,DVD和蓝光光盘中使用的视频片段)、与视频片段相关的各种信息(例如,用于视频片段的封面、时间标签、子标题、内容描述等等)等等能够形成现有各种视频内容的成分。在线视频的示例可以是YouTube、抖音、Tiktok、哔哩哔哩(bilibili)上的各种短视频。
对于“标题到视频”任务,针对每个具体检索,通过给定“标题-视频”对的集合,并对所有视频候选进行排序来使得与该标题最相关的视频顺序最高来实现。另一方面,“视频到标题”任务的目的则是在一组标题候选中找到能够最佳地描述所检索的视频的标题(检索目标)。
针对以上两种视频检索的公共方法是相似度学习,即我们如何学习能够最佳地描述两个元素(即,查询与候选)之间的相似度的函数。然后,我们就能够根据各个候选与查询之间的相似度(相似度估计)来对候选(视频或标题)进行排序。
因此,目前视频检索的主流框架包括三个部分:视频编码器、文本编码器、相似度估计。视频编码器获得输入视频的视频特征表示;文本编码器获得输入文本(即,标题,视频表述文字等等与视频内容相关联的文本)的文本特征表示;相似度计算则通过计算所述视频特征表示与所述文本特征表示之间的相似度来找到匹配的视频和文本。这样就将相似度学习拆分为视频编码器和文本编码器的学习以及相似度估计函数。
例如,在相似度学习(即训练阶段)中,假设X代表用于训练的视频集合,Y代表所有视频的相关标题(本文中也称为“文本”)。给定B对数据{(v1,c1),…,(vi,ci),…,(vB,cB)}的学习数据库,其中vi∈X,ci∈Y,相似度学习就是找到视频特征表示Fv和文本特征表示Fc,通过比较相似度分数找到匹配的视频和文本。公式表示如下:
s=d(Fv(vi),Fc(cj)) (1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210210095.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:全自动ICT检测设备
- 下一篇:全自动ICT检测设备的压床检测机构





