[发明专利]视频文本的相似性度量方法及系统在审
| 申请号: | 202111214110.4 | 申请日: | 2021-10-19 |
| 公开(公告)号: | CN114092703A | 公开(公告)日: | 2022-02-25 |
| 发明(设计)人: | 张化祥;金明;刘丽;朱磊;孙建德;聂礼强;金圣开 | 申请(专利权)人: | 山东师范大学 |
| 主分类号: | G06V10/40 | 分类号: | G06V10/40;G06V10/74;G06V10/774;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 250014 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 文本 相似性 度量 方法 系统 | ||
本发明提出了视频文本的相似性度量方法及系统,包括:使用预训练的特征提取器提取视频的多模态特征,得到初始视频特征表示;将初始特征输入到粗‑细粒度并列注意力网络中,得到中间表示特征;将中间特征表示输入到特征融合网络得到最终的视频多模态特征表示;利用预先训练的模型对输入文本进行文本特征提取,得到文本特征表示;通过门嵌入生成对应视频不同模态特征的文本特征表示向量;对视频多模态特征表示以及文本特征表示进行相似性度量。本发明将粗‑粒度注意力网络、细‑粒度注意力网络、特征融合模块结合在一起,并在细‑粒度注意力网络中融入多头注意力网络,用于缓解计算机内存的压力,从而加速对视频的多模态特征的处理。
技术领域
本发明属于视频-文本跨模态检索技术领域,尤其涉及视频文本的相似性度量方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
近年来,由于视频分析和自然语言处理都取得了迅速的发展,从而也将视频-文本跨模态研究推向了研究的高潮。但是视频、文本模态之间的语义存在着较大的差异,在不同的模态之间缩小这种差异仍然是一个挑战性任务。视频文本跨模态检索旨在检索给定文本(视频)查询的目标视频(文本)。并根据检索相似性分数,将检索到的视频或者文本进行排序。视频-文本跨模态检索与图像-文本跨模态检索相比,由于视频内部含有多种模态信息并且视频特征之间存在时序信息,这对视频特征的有效表示带来了一定的困难。现有的视频-文本跨模态检索方法主要集中于利用视频的单模态信息特征,没有充分的利用视频模态中包含的多模态信息。即使有相关的研究方法提取了视频中的多模态信息,但是他们只将多模态信息简单的叠加,视频的多模态特征简单地叠加容易产生大量的噪音数据,很大程度上不利于视频和文本之间的相互检索。现存的视频-文本跨模态检索大多是将提取的单模态视频特征和文本特征映射进一个公共的空间进行相似性度量,这是现在跨模态检索研究中相似性度量的一种有效的方法。另外一种有效的方法是,将视频特征和文本特征直接进行相似性的度量,这样可以减少相似性度量的时间。一般不同模态之间的相似性度量方法是度量两种模态特征之间的欧氏距离。
视频-文本跨模态检索的网络结构使用的是双网络结构。双网络结构中视频特征提取和文本特征提取是使用的两个独立的神经网络,然后将提取的特征进行编码。最后通过设计损失函数来减少不同模态特征之间的语义鸿沟。广泛使用的损失是对视频(文本)嵌入、正文本(视频)嵌入和负文本(视频)嵌入的双向排名损失。这使得视频(文本)嵌入和相应的文本(视频)嵌入之间的相似性最大化,并减少与所有其他不匹配的相似性。虽然现有的工作已经稳步提高了视频-文本跨模态检索的性能,但是有一部分工作还需提高。怎样有效的减少视频中包含的不同模态特征之间的语义鸿沟以及学习更加有效的特征表示,成为现在研究的重点。综上所述,现有的方法面临着以下问题:
跨模态检索时,简单地使用视频的多模态特征信息,反而增加了不同模态之间的语义差异。另外,同一模态下不同特征点之间的紧密性有待加强。还有,没有更好的使视频中不同模态特征之间语义对齐。处理视频的多模态特征增加了计算机硬件的负担。
发明内容
为克服上述现有技术的不足,本发明提供了视频文本的相似性度量方法,利用多头注意力机制增强了视频中相同模态特征中特征点之间的联系,进一步减轻了计算机的内存压力。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了视频文本的相似性度量方法,包括:
使用预训练的特征提取器提取视频的多模态特征,得到初始视频特征表示;
将初始特征输入到粗-细粒度并列注意力网络中,得到中间表示特征;
将中间特征表示输入到特征融合网络得到最终的视频多模态特征表示;
利用预先训练的模型对输入文本进行特征提取,得到文本特征表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111214110.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种医疗器械用超声清洗装置
- 下一篇:可定制珠宝制品





