[发明专利]一种用于生成视频描述文本的系统、方法、存储介质与电子设备有效
申请号: | 202111060036.5 | 申请日: | 2021-09-10 |
公开(公告)号: | CN113784199B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 王树徽;闫旭;黄庆明 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | H04N21/435 | 分类号: | H04N21/435;H04N21/44;G06V20/40;G06F16/74 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 生成 视频 描述 文本 系统 方法 存储 介质 电子设备 | ||
1.一种用于生成视频描述文本的系统,其特征在于,包括:
视觉编码模块,用于对待处理的视频进行全局编码,得到全局视频特征,并利用所述待处理的视频的视频分段信息和全局视频特征对相应的视频片段进行局部编码,得到各个视频片段中每个视频帧的视觉模态表征,其中,所述视觉编码模块包括:
视觉嵌入单元,用于提取具有所述视频分段信息的视频的特征,得到具有视频分段信息的嵌入表征;
全局视频编码单元,用于对所述嵌入表征进行全局编码,得到全局视频特征;
局部片段编码单元,用于基于所述视频分段信息和全局视频特征对相应的视频片段进行局部编码,得到局部片段特征,所述局部片段特征包括所述视频片段中每个视频帧对应的帧特征;以及
池化单元,用于对所述局部片段特征进行池化处理,得到各视频片段中每个视频帧的视觉模态表征;
字幕生成模块,用于对所述每个视频帧的视觉模态表征进行嵌入处理,得到文本模态表征,并基于文本模态表征生成描述文本,其中,所述字幕生成模块包括预训练语言解码器,用于将按序输入的每个视频帧的视频模态表征依次与相应的文本起始字符拼接后进行嵌入处理得到文本模态表征,根据文本模态表征预测当前输入视频帧对应的单词,并根据视频片段的所有单词得到视频片段对应的描述文本。
2.根据权利要求1所述的系统,其特征在于,所述视频的首个视频片段的首个视频帧的视觉模态表征对应的文本起始字符中的向量值设为预定值,视频后续的所有视频帧的视觉模态表征对应的文本起始字符设为从在先预测得到的所有单词对应的文本模态表征中提取语义信息所得的词向量。
3.根据权利要求1或2所述的系统,其特征在于,所述系统还包括跨模态信息流对齐模块,所述跨模态信息流对齐模块用于训练时指导从视觉编码模块获得的视觉模态表征和从字幕生成模块生成的描述文本进行跨模态信息流对齐,其中,所述视觉编码模块、字幕生成模块以及跨模态信息流对齐模块是按照以下方式训练获得的:
获得训练集,其中,包括多个视频样本和每个视频样本对应的文本标签,其中,每个视频根据视频分段信息分割为多个视频片段,每个视频片段对应一个事件,所述文本标签包括所有事件对应的描述文本标签;
利用训练集训练视觉编码模块和字幕生成模块学习生成各个视频片段的描述文本,根据生成的描述文本和对应的描述文本标签计算第一子损失,并且训练跨模态信息流对齐模块将从视觉编码模块获得的视觉模态表征和从字幕生成模块生成的描述文本进行跨模态信息流对齐,根据对齐结果获得第二子损失;
根据对第一子损失和第二子损失进行加权求和获得的总损失更新视觉编码模块、字幕生成模块以及跨模态信息流对齐模块的参数。
4.根据权利要求3所述的系统,其特征在于,所述跨模态信息流对齐模块包括视觉流编码器、文本流编码器和对齐单元,所述将从视觉编码模块获得的视觉模态表征和从字幕生成模块生成的描述文本进行跨模态信息流对齐,得到表示对齐误差的第二子损失的步骤包括:
通过视频流编码器对连续输入的视觉模态表征进行编码,得到事件对应的视觉特征信息流总量;
通过文本流编码器对连续输入的生成的描述文本进行编码,得到事件对应的文本特征信息流总量;
通过对齐单元,计算相邻两个事件对应的视觉特征信息流总量间的视觉特征变化,得到视觉特征变化流;计算相邻两个事件对应的文本特征信息流总量间的文本特征变化,获得文本特征变化流;以及根据视觉特征变化流和文本特征变化流之间的绝对误差计算第二子损失。
5.根据权利要求4所述的系统,其特征在于,所述视觉编码模块和字幕生成模块学习生成各个视频片段的描述文本,包括:
利用视觉编码器,获得视频样本的各个视频片段中每个视频帧的视觉模态表征;
跨模态信息流对齐模块基于视觉模态表征获得视觉特征变化流;
字幕生成模块结合描述文本标签对视觉模态表征进行嵌入处理,获得事件对应的文本模态表征,并基于各个视频片段对应的文本模态表征以及视觉特征变化流,生成所述视频片段的描述文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111060036.5/1.html,转载请声明来源钻瓜专利网。