[发明专利]一种用于生成视频描述文本的系统、方法、存储介质与电子设备有效
申请号: | 202111060036.5 | 申请日: | 2021-09-10 |
公开(公告)号: | CN113784199B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 王树徽;闫旭;黄庆明 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | H04N21/435 | 分类号: | H04N21/435;H04N21/44;G06V20/40;G06F16/74 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 生成 视频 描述 文本 系统 方法 存储 介质 电子设备 | ||
本发明提供的一种用于生成视频描述文本的系统,包括:视觉编码模块,用于对待处理的视频进行全局编码,得到全局视频特征,并利用视频分段信息和全局视频特征对相应的视频片段进行局部编码,得到各个视频片段中每个视频帧的视觉模态表征;以及字幕生成模块,用于对视觉模态表征进行嵌入处理,得到文本模态表征,并基于文本模态表征生成描述文本。根据该系统进行的视频描述的生成方法中,生成的描述文本不仅更加具有视觉准确性和视觉一致性,前后文本更加连贯。
技术领域
本发明涉及多媒体领域的视频描述生成技术,具体涉及一种用于生成视频描述文本的系统、方法、存储介质与电子设备。
背景技术
最近,视频已经成为互联网上最常见的媒体形式,与图片和文字相比,视频能够传递更丰富多彩的信息。但绝大多数视频没有对应的文字描述,这极大地限制了信息传播的速度。因此,分析视频内容并生成对应描述文本的视频描述生成技术(VC,VideoCaptioning),成为多模态领域最主要的研究方向之一。该技术有广泛的应用前景,如道路交通状况的实时播报、机场火车站等安防系统的智能搜索、为视障人士提供视觉辅助信息、家庭机器人的物品搜索等功能。
目前通用的视频描述生成技术能够对时长约6-25s的视频生成一句20 词左右的描述文本。但实际应用场景中的视频,具有更长的时间跨度和更复杂的视觉内容。因此,能够对视频内的多个视频事件,生成详细的、语义内容丰富的视频描述生成任务,是一个非常具有挑战又具有广阔应用意义的任务。为了解决这个任务,首先对长视频进行事件识别,然后分别对每个事件生成一句描述文本,最后拼接得到段落描述。但这类方法没有对事件之间的关系进行建模,因此生成的文本不连贯。另外,还有一种方法是通过提取词性标注来提高文本描述的语法正确性,或者通过使用语音识别技术,提取音频特征,丰富视频表征信息,提升文本描述的内容一致性。
尽管现有的视频描述生成技术这些方法都在一定程度上完成了视频描述生成任务,但在对视频片段生成对应描述时,忽视了全局信息,使得生成的文本描述仍然具有前后语句不连贯、文本语义与视频内容不一致、重复词语较多等问题。同时,通过提取词性标注提高语法正确性或语音识别技术,提升文本描述内容一致性,较为复杂且成本高,且语音识别易出现错误,当视频为无声音或声音较少时无法提取音频特征,局限性大。
因此,生成一段能够准确描述视频内多个事件的描述文本,是极具挑战的任务。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种用于生成视频描述文本的系统和方法。
本发明的目的是通过以下技术方案实现的:
根据本发明的第一方面,提供一种用于生成视频描述文本的系统,系统包括:视觉编码模块,用于对待处理的视频进行全局编码,得到全局视频特征,并利用所述待处理的视频的视频分段信息和全局视频特征对相应的视频片段进行局部编码,得到各个视频片段中每个视频帧的视觉模态表征;字幕生成模块,用于对所述每个视频帧的视觉模态表征进行嵌入处理,得到文本模态表征,并基于文本模态表征生成描述文本。
在本发明的一些实施例中,所述视觉编码模块包括:视觉嵌入单元,用于提取所述具有视频分段信息的视频的特征,得到具有视频分段信息的嵌入表征;全局视频编码单元,用于对所述嵌入表征进行全局编码,得到全局视频特征;局部片段编码单元,用于基于所述视频分段信息和全局视频特征对相应的视频片段进行局部编码,得到局部片段特征,所述局部片段特征包括所述视频片段中每个视频帧对应的帧特征;以及池化单元,用于对所述局部片段特征进行池化处理,得到各视频片段中每个视频帧的视觉模态表征。
在本发明的一些实施例中,所述字幕生成模块包括预训练语言解码器,用于将按序输入的每个视频帧的视频模态表征依次与相应的文本起始字符拼接后进行嵌入处理得到文本模态表征,并根据文本模态表征预测当前输入视频帧对应的单词,根据视频片段的所有单词得到视频片段对应的描述文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111060036.5/2.html,转载请声明来源钻瓜专利网。