[发明专利]一种基于多阶段聚合Transformer模型的视频语句定位方法有效
申请号: | 202011508292.1 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112488063B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 杨阳;张明星 | 申请(专利权)人: | 贵州大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/75;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 55002*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 阶段 聚合 transformer 模型 视频 语句 定位 方法 | ||
本发明公开了一种基于多阶段聚合Transformer模型的视频语句定位方法,在视频语句Transformer模型中,每个视频切片或者单词都可以根据自身的语义自适应地聚合和对齐来自两种模态中所有其他视频切片或者单词的信息。通过多层叠加,最后所得到的视频语句联合表示具有丰富的视觉语言线索捕捉能力,能够实现更精细的匹配。在多阶段聚合模块中,将其开始阶段的阶段特征、中间阶段的阶段特征和结束阶段的阶段特征串联起来,构成该候选片段的特征表示。由于所获得的特征表示捕捉了不同阶段的特定信息,因此非常适合准确定位视频片段的起始位置和终止位置。这两个模块整合在一起,形成一个既有效又高效的网络,提高视频语句定位的准确度。
技术领域
本发明属于视频语句定位检索技术领域,更为具体地讲,涉及一种基于多阶段聚合Transformer模型的视频语句定位方法。
背景技术
视频定位是计算机视觉系统中一个基本的问题,具有广泛的应用。在过去的十年里,人们对视频动作定位进行了大量的研究和相关的应用系统开发。近年来,随着多媒体数据的兴起和人们需求的多样化,视频中语句的定位问题(视频语句定位)逐渐变得重要起来。视频语句定位的目的是在一段很长的视频中定位要查询的语句相对应的某个视频片段。与视频动作定位相比,语句定位具有更大的挑战性和更广阔的应用前景,比如视频检索、视频字幕自动生成、人机智能交互等。
视频语句定位是一项具有挑战性的任务。除了需要理解视频内容外,还需要将视频和语句之间的语义进行匹配。
现有视频语句定位一般可分为两类:一阶段法和两阶段法。一阶段方法以视频和查询语句作为输入,直接预测被查询视频片段起始点和终止点,直接生成与查询语句相关联的视频片段。一阶段法可以进行端到端训练,但它们很容易失去一些正确的视频片段。然而,两阶段法遵循候选片段生成和候选片段排名两个过程。它们通常先从视频中生成一系列的候选片段,然后根据候选片段与查询语句的匹配程度对候选片段进行排序。许多方法都遵循这条路线。两阶段法虽然能够召回很多可能正确的候选视频片段,但是也存在几个关键的问题没有得到很好的解决:
1)、如何有效地对视频和语句之间进行细粒度的语义匹配?
2)、如何在原始长视频中准确定位与语句匹配的视频片段起始点和终止点?
对于第1个问题,现有的大多数方法通常是分别处理视频和语句序列,然后将它们进行匹配。但是,分别单独处理视频和语句序列,比如首先将语句编码成一个向量然后进行匹配,将不可避免地丢失语句中一些详细的语义内容,从而无法实现细致的匹配;
对于第2个问题,现有的方法通常使用全卷积、平均池化或RoI Pooling操作来获得候选片段的特征表示。然而这些操作所获得的特征,它们的时序区分性不够强。例如,某个视频片段中通常包含一些不同的阶段,如开始阶段、中间阶段和结束阶段。这些阶段的信息对于时刻起始点和终止点的精确定位是非常重要的。然而,平均池化操作完全丢弃了阶段信息,无法对不同阶段进行精确匹配来实现精确的定位。尽管全卷积操作或RoI Pooling操作可以在一定程度上刻画不同的阶段,但它们不依赖于显式的特定阶段的特征,因此在更精确的定位方面也存在不足。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多阶段聚合Transformer模型的视频语句定位方法,以提高视频语句定位的准确度。
为实现上述发明目的,本发明基于多阶段聚合Transformer模型的视频语句定位方法,其特征在于,包括以下步骤:
(1)、视频切片特征、单词特征提取
将视频按照时间均匀地划分为N个时刻点,在每一个时刻点,采集一个视频切片(由连续的多帧,如50帧的图像组成),对每个视频切片进行特征提取,得到切片特征(得到总共N个切片特征),N个切片特征按照时刻顺序放置,形成视频特征序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011508292.1/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法