[发明专利]一种使用语义补全神经网络来解决视频时序定位问题的方法在审
申请号: | 202010038195.4 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111222010A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 赵洲;黄启涵;林志杰 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/735;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 语义 神经网络 解决 视频 时序 定位 问题 方法 | ||
本发明公开了一种使用语义补全神经网络来解决视频时序定位问题的方法。主要包括如下步骤:1)针对于一个视频和一段自然语言描述,通过一个候选产生模块来生成候选的视频片段及对应的置信度,并使用特定的算法从中挑选出K个优先级最高的候选视频片段。2)通过语义补全模块计算K个候选视频片段的激励,并反馈给候选产生模块。3)重复以上步骤对整个网络进行训练,得到良好的视频时序定位的网络。相比于传统的视频时序定位的学习方法,本发明的学习方法是弱监督的学习方法,仅仅需要粗粒度的视频级别的标注数据集,可以节省昂贵的数据集标注成本。
技术领域
本发明涉及视频时序定位的学习,尤其涉及种使用语义补全神经网络来解决视频时序定位问题的方法。
背景技术
视频时序定位指的是根据一段自然语言描述从给定的视频中提取出符合这段描述的特定视频片段,这是信息提取和计算机视觉中的一个重要主题,在最近几年吸引了越来越多的关注。该技术可以高效地提取出视频中的信息,帮助用户更快地定位到视频中的特定片段。
现有的视频时序定位的方法中,有使用一个滑动窗口选择视频,并将窗口内片段与自然语言描述粗融合进行语义相关性判断的(Gao et al.2017;Hendricks et al.2017;2018),有使用交互器逐帧挑选出置信度最高的视频片段的(Chen et al.2018),也有使用强化学习方式来进行时序定位的(Wang,Huang,and Wang 2019),它们都取得了不错的效果。但是,现有的这些方法大多数是采用完全监督学习的方式,在数据集中,对于每个自然语言查询,都需要标注对应视频的起始时间和终止时间。这种完全监督学习的方法需要大量的人力成本和数据集标注时间,甚至在有些时候,如果原始视频还没有经过裁剪,视频片段的起始时间和终止时间就更加难以被确定。相反地,如果采用半监督学习的方法,数据集只需要输入一个视频和对应的自然语言描述,就可以高效、低成本地获取数据集。
发明内容
为了克服现有技术中对数据集的数量要求较高,训练成本昂贵的问题,本发明提出了一种新颖的视频时序定位的弱监督学习方法来解决视频时序定位问题,这个方法训练时仅仅需要粒度较粗的视频级别的标注数据集。本发明将首先使用一个候选产生模块,用于结合给定的自然语言文本,生成每个时间点对应的候选视频片段以及每个视频片段的置信度;然后设计一种特定的算法来从这些生成的候选视频片段中挑选出K个优先级最高的候选视频片段;接下来使用一个语义补全模块来计算挑选出来的候选视频片段与给定的自然语言描述之间的匹配程度,然后根据匹配程度计算激励,反馈给候选产生模块,使候选产生模块调整置信度计算的参数。在经过足够的训练之后,将会生成一个有效的候选产生模块。本发明在ActivityCaptions数据集和Charades-STA数据集上都取得了优异的效果。
本发明所采用的具体技术方案是:
一种使用语义补全神经网络来解决视频时序定位问题的方法,包含如下步骤:
1.构建语义补全神经网络,包括候选产生模块和语义补全模块;所述的候选产生模块包括C3D模块、文本编码器和图像解码器,文本编码器和图像解码器均包括若干个多头注意力层以及一个全连接的反馈神经网络层;所述的语义补全模块包括C3D模块、图像编码器和文本解码器;
2.针对于一个视频和一段自然语言描述,通过候选产生模块生成候选视频片段集合及每一个候选视频片段对应的置信度;
3.设计一种挑选算法,从步骤2所述的候选视频片段集合中挑选出K个优先级最高的候选视频片段;
4.通过语义补全模块计算步骤3挑选出来的K个优先级最高的候选视频片段与给定的自然语言描述之间的匹配程度,根据匹配程度计算对应于每一个候选视频片段的激励,并反馈给候选产生模块;
5.重复步骤2-步骤4,不断地输入对应的一个视频和一段自然语言描述,对整个神经网络进行训练,最终得到训练好的语义补全神经网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010038195.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可供户外旅游使用的自加热保温水杯
- 下一篇:一种底部带图案瓷器的制作工艺