[发明专利]基于生成对抗网络的视频描述方法及系统有效
| 申请号: | 202010392029.4 | 申请日: | 2020-05-11 |
| 公开(公告)号: | CN111639547B | 公开(公告)日: | 2021-04-30 |
| 发明(设计)人: | 许信顺;尹晓雅;罗昕 | 申请(专利权)人: | 山东大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
| 地址: | 250101 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 生成 对抗 网络 视频 描述 方法 系统 | ||
本发明公开了基于生成对抗网络的视频描述方法及系统,包括:获取待描述视频;将待描述视频输入到训练好的生成对抗网络中,训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征,生成器的解码器对所述视觉特征进行解码,输出待描述视频的描述语句。所述训练好的生成对抗网络,具体训练步骤包括:对生成器单独进行训练,得到单独训练好的生成器;对判别器单独进行训练,得到单独训练好的判别器;将单独训练好的生成器和单独训练好的判别器进行连接,得到初始化生成对抗网络;对初始化生成对抗网络进行训练,得到训练好的生成对抗网络。
技术领域
本公开涉及计算机视觉及自然语言处理技术领域,特别是涉及基于生成对抗网络的视频描述方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
对于大多数人来讲,即使三岁的孩子都可以出色的完成“看图说话”或者“看视频说话”任务。但是对于计算机来说,这显然不是一个简单的任务。随着深度学习的发展,计算机视觉与自然语言处理任务得到了极大的发展,视觉描述任务也因此受到了广泛的重视。视觉描述的生成可以应用于多种场景,如帮助人工智能体和视障人士理解当前场景,将海量监控视频转化为文字形式,便于留存以及检索,为视频快速添加字幕等实际场景。
根据视觉信息的不同表现形式,视觉描述任务可以分为图像描述任务以及视频描述任务。图像描述的生成已经被广泛认为是一项非常具有挑战性的任务,与之相比,视频描述的生成更为困难。在图像描述生成任务中,计算机只需要识别一张图片中的显著目标,以及目标间的关系,并将目标以及目标之间的关系用一段自然语言描述出来。而在视频描述任务中,视频中出现的显著目标数量更多,目标间关系更为复杂。除了成倍增加的视觉信息,视频的时序信息也是需要额外考虑的一点,正是因为时序信息使得组成视频的帧之间的信息串联在一起。
在过去的几年里,图像描述任务已经取得了一些的成果,视频描述任务由于其复杂性仍然具有进步空间。当前解决视频描述任务的方法受机器翻译任务启发,采用编码器-解码器框架,将视频序列翻译为文字序列。通常采用基于卷积神经网络的编码器编码视视频信息,得到全局视频特征表示向量。由于目标识别,图像分类等任务的效果不断提升,视频描述编码阶段的识别效果也大幅提高。采用基于循环神经网络的解码器解码全局视频特征表示向量,生成描述视频内容的正确语句。
基于传统的编码器-解码器框架以及交叉熵损失函数,目的只是得到可以正确描述视频内容的语句,但是,发明人发现现有技术中视频表述语句通常不是很自然或者不是很通顺,描述自然是判别描述语句的一个重要指标,语句的自然性直接影响到描述语句的可读性,理解性以及后续进一步分析的实用性。
发明内容
为了解决现有技术的不足,本公开提供了基于生成对抗网络的视频描述方法及系统;能够进一步提高描述语句的准确率以及描述的自然性,从而保障视频描述的实用性的基于生成对抗网络的视频描述方法。
第一方面,本公开提供了基于生成对抗网络的视频描述方法;
基于生成对抗网络的视频描述方法,包括:
获取待描述视频;
将待描述视频输入到训练好的生成对抗网络中,训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征,生成器的解码器对所述视觉特征进行解码,输出待描述视频的描述语句。
第二方面,本公开提供了基于生成对抗网络的视频描述系统;
基于生成对抗网络的视频描述系统,包括:
获取模块,其被配置为:获取待描述视频;
输出模块,其被配置为:将待描述视频输入到训练好的生成对抗网络中,训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征,生成器的解码器对所述视觉特征进行解码,输出待描述视频的描述语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010392029.4/2.html,转载请声明来源钻瓜专利网。





