[发明专利]视频描述生成方法、装置、设备以及存储介质有效

申请号：	202210271140.7	申请日：	2022-03-18
公开（公告）号：	CN114661953B	公开（公告）日：	2023-05-16
发明（设计）人：	汪琦;冯知凡;柴春光;朱勇	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F16/78	分类号：	G06F16/78
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	李兴福;臧建明
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频描述生成方法装置设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了视频描述生成方法、装置、设备以及存储介质，涉及人工智能领域，尤其涉及知识图谱、深度学习、计算机视觉、视频处理等技术领域。具体实现方案为：获取待处理的目标视频，通过提取目标视频的视觉特征，并根据目标视频的视觉特征获取目标视频的知识增强特征，再将目标视频的视觉特征以及知识增强特征作为视频描述生成模型的输入，获取模型输出的目标视频对应的视频描述文本。其中，目标视频的知识增强特征包括目标视频的事件特征以及目标视频中目标对象之间的关系特征的至少一项。上述过程引入知识增强特征，可提升模型对视频语义的深层理解，从而生成高质量的视频描述文本。

技术领域

本公开涉及人工智能领域的知识图谱、深度学习、计算机视觉、视频处理等技术领域，尤其涉及一种视频描述生成方法、装置、设备以及存储介质。

背景技术

视频描述生成(video captioning)是利用机器学习技术，将视频生成对应的自然语言语句，其广泛适用于人机交互场景，如帮助视力受损人员进行视频内容的描述、视频标题或摘要生成等。

相关技术中，视频描述生成大多是基于序列到序列(sequence to sequence)的生成方法，其主要做法是采用编码器-解码器(encoder-decode)框架，通过编码器编码视频，再通过解码器生成文本序列。然而，相关技术对视频的特征分析不够全面，进而影响视频描述的质量。

发明内容

本公开提供了一种视频描述生成方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种视频描述生成方法，包括：

获取待处理的目标视频，所述目标视频包括多个目标对象；

提取所述目标视频的视觉特征；

根据所述目标视频的视觉特征获取所述目标视频的知识增强特征，所述知识增强特征包括所述目标视频的事件特征以及所述目标视频中目标对象之间的关系特征的至少一项；

将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型，得到所述目标视频对应的视频描述文本。