[发明专利]一种使用语义补全神经网络来解决视频时序定位问题的方法在审
申请号: | 202010038195.4 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111222010A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 赵洲;黄启涵;林志杰 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/735;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 语义 神经网络 解决 视频 时序 定位 问题 方法 | ||
1.一种使用语义补全神经网络来解决视频时序定位问题的方法,其特征在于,包括如下步骤:
1)构建语义补全神经网络,包括候选产生模块和语义补全模块;所述的候选产生模块包括C3D模块、文本编码器和图像解码器,文本编码器和图像解码器均包括若干个多头注意力层以及一个全连接的反馈神经网络层;所述的语义补全模块包括C3D模块、图像编码器和文本解码器;
2)针对于一个视频和一段自然语言描述,通过候选产生模块生成候选视频片段集合及每一个候选视频片段对应的置信度;
3)设计一种挑选算法,从步骤2)所述的候选视频片段集合中挑选出K个优先级最高的候选视频片段;
4)通过语义补全模块计算步骤3)挑选出来的K个优先级最高的候选视频片段与给定的自然语言描述之间的匹配程度,根据匹配程度计算对应于每一个候选视频片段的激励,并反馈给候选产生模块;
5)重复步骤2)-步骤4),不断地输入对应的一个视频和一段自然语言描述,对整个神经网络进行训练,最终得到训练好的语义补全神经网络;
6)将待处理的一个视频和一段自然语言描述输入到步骤5)得到的训练好的语义补全神经网络中,输出自然语言描述相关的特定视频片段对应的起始帧下标和结束帧下标。
2.根据权利要求1所述的一种使用语义补全神经网络来解决视频时序定位问题的方法,其特征在于,所述的步骤2)具体为:
2.1)给定一个未修剪的视频其中nv是这个视频的帧的总数,vi是视频第i帧对应的特征向量;
给定一个对应的自然语言描述其中qi是这段描述中第i个单词对应的特征向量;
视频时序定位问题是为了从视频中提取出与这段自然语言描述相关性最高的视频片段其中分别是这段视频片段对应的起始帧下标和结束帧下标;
2.2)采用文本编码器Encq获取的文本描述Encq(q),将Encq(q)和v输入图像解码器Decv,得到视频和文本的交叉描述公式如下所示:
c=Decv(v,Encq(q))
所述的文本编码器Encq和图像解码器Decv均包括若干个多头注意力层以及一个全连接的反馈神经网络层;
2.3)定义每个时间点对应的候选视频片段Ct,计算公式如下:
其中,rk是第k个候选视频片段对应的长度比例,rk∈(0,1);nk是第t个时间点对应的候选视频片段的数量;(t-rk*nv)和t分别是第t时间点第k个候选视频片段的起始帧下标和结束帧下标;
进一步得到整个视频的候选视频片段集合nv是这个视频的帧的总数;
将步骤2.2)得到的视频和文本的交叉描述通过一个全连接层,以及用sigmoid激活函数去线性化后,得到中每一时间点对应的候选视频片段集合Ct的置信度,计算公式如下:
SCt=σ(Ws*ct+bs)
其中,表示选视频片段集合Ct中包含的nk个候选视频片段的置信度的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010038195.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可供户外旅游使用的自加热保温水杯
- 下一篇:一种底部带图案瓷器的制作工艺