[发明专利]一种面向事件关系编码的视频中多事件自然语言描述方法有效
申请号: | 201810558731.6 | 申请日: | 2018-06-01 |
公开(公告)号: | CN108960063B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 袁春;杨大力 | 申请(专利权)人: | 清华大学深圳研究生院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 徐罗艳 |
地址: | 518055 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 事件 关系 编码 视频 多事 自然语言 描述 方法 | ||
本发明公开了一种面向事件关系编码的视频中多事件自然语言描述算法,包括以下步骤:S1、采用一三维卷积神经网络,对给定的视频序列提取深度特征,得到若干个深度特征向量,构成一深度特征序列;S2、基于所述深度特征序列,采用循环神经网络作为时序分析方法计算所述视频序列中事件的提议起止区间;S3、选定所述视频序列中需要进行描述的待描述事件,并根据所述事件的提议起止区间,对所述待描述事件在所述深度特征序列中对应的子序列进行再编码,得到所述待描述事件的描述子;S4、采用基于注意力模型的LSTM自适应解码器对所述描述子进行解码,得到用于描述所述待描述事件的自然语言。
技术领域
本发明涉及自然语言描述技术领域,尤其是涉及从视频中检测事件并用自然语言描述事件的算法。
背景技术
视觉自然语言描述(Captioning)是把视觉信息转变为自然语言的任务。通常该任务使用了编-解码器架构作为关键技术。作为这一过程的主要步骤,编码器输出的特征质量与解码器的生成模型对最终的自然语言结果有重要影响。视觉自然语言描述在视频和图像两方面均有很多探索。通常地,现有技术流行使用基于神经网络的计算模型来解决架构的实际建模。图像上,卷积神经网络在众多视觉理解任务中都有良好的效果,在图像描述任务中的工作也都经常使用该方法作为编码器。在解码器方面,则是根据已知的编码结果生成词汇序列的建模方法,常用的神经网络结构如卷积神经网络和循环神经网络均可被用在解码器实现中。在视频中,编码器的类型相对更多,常用的有采用三维卷积在空间和时间上提取特征,这一方法主要面向动作类型的特征;同样地,单帧图像的二维卷积特征也被用作编码器。利用这两种特征之一,辅以序列模型编码时序信息,我们得以对众多视频中的视觉理解任务做出建模。其特征的后处理与图像描述算法基本相同。目前较多的算法仍以基于循环神经网络的模型作为其具体实现。
这里的图像/视频描述任务数学上可以抽象为一个将词汇表依概率的采样问题,正式建模为:
其中,yk为第k个输出单词,pθ表示一个参数化的概率分布,w表示词汇表Ω中的单词,wk表示已有的第k个输出。模型在每一步应当输出给定视觉信息与已有词组下,概率最高的单词。在建模的时候,主要考虑语言序列和视觉信息的联合概率分布,所以通常情况下使用的方法论是通过交叉熵来使得模型逼近合理的概率分布。
给定该形式化的模型,目前主要的方法分别在编码器和解码器上做出不同改进。在编码器方面,除了用不同的主干神经网络试图获得更佳编码效果以外,有的方法也显式地使用了,视觉内容的属性——包括加入已标注好或使用检测算法标注的物体信息等方法。在解码阶段,最主要的改进方向是以特征加权形式出现的注意力模型,同时也有将问题从优化联合概率分布转变为自监督的类强化学习的方法用以直接提高语句的自然程度。但是在多事件视频的描述任务,已有的方法均有不同的缺点。最主要的问题在于:1)对于多事件视频的描述,这些方法都无法获取事件之间的关系;2)对于长短差别较大的视频片段,用统一的编码器-解码器架构的效果并不理想。这两方面的缺点造成描述语言的准确性和自然程度均下降。
以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
针对传统的视觉自然语言描述算法在多事件视频的新任务中出现的问题,本发明提出了一种面向事件关系编码的视频中多事件自然语言描述算法,通过合理的编码方式获得对事件内部及互相关系的编码特征,以提高描述语言的准确性和自然程度。
本发明为达上述目的提出以下技术方案:
一种面向事件关系编码的视频中多事件自然语言描述算法,包括以下步骤:
S1、采用一三维卷积神经网络,对给定的视频序列提取深度特征,得到若干个深度特征向量,构成一深度特征序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳研究生院,未经清华大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810558731.6/2.html,转载请声明来源钻瓜专利网。