[发明专利]多模态视频标题生成方法、装置、存储介质及存储设备在审

申请号：	202110110850.7	申请日：	2021-01-26
公开（公告）号：	CN112800254A	公开（公告）日：	2021-05-14
发明（设计）人：	孙晓飞;韩庆宏	申请（专利权）人：	浙江香侬慧语科技有限责任公司
主分类号：	G06F16/483	分类号：	G06F16/483;G06F16/438;G06K9/62;G06N3/04
代理公司：	北京国科程知识产权代理事务所(普通合伙) 11862	代理人：	曹晓斐
地址：	311121 浙江省杭州市余杭***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	多模态视频标题生成方法装置存储介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种多模态视频标题生成方法、装置、存储介质及设备，属于视频制作技术领域。该方法包括：利用相应的特征编码器分别获取预定视频中的文本特征以及视频特征；对文本特征以及视频特征进行融合得到文本视频融合特征；以及利用标题生成器根据文本视频融合特征得到预定视频的视频标题。本发明的应用结合多模态信息自动生成视频标题，减少视频制作者投入在构思视频标题上的时间。

技术领域

本申请涉及视频制作技术领域，特别是一种多模态视频标题生成方法、装置、存储介质及存储设备。

背景技术

从现实需要来看，当前互联网上每天都产生大量的视频，尤其以短视频居多，面对繁多的视频，人们往往首先需要甄别哪些视频需要去看，值得去看，实现该目的最直接的方法就是通过标题获取视频的大致内容，然后再决定是否要去观看。对于视频制作者而言，一个全面反映视频内容，并且吸引人的标题可以为自己带来更多的流量，这就产生了视频标题生成的现实需求。

从人类获取信息的途径来说，人类感知事物、获取世界的各种信息不是基于“单模态”的，所谓单模态，就是声音、图像、文字、视频等单一的感知信息，相反，人类感知世界是从多个模态出发，协同合作，获取信息的，比如看电影的时候，不仅仅要听人物的对话(声音)，同时还要看人物对话(文字)，最重要的就是看电影画面(视觉，即图像、视频)等，综合这三者，我们才能正确感知电影所要传递的内容。从这个角度讲，单方面使用视频信息或者文字信息去生成视频标题，都不一定能正确全面地反映视频的内容，所以，使用多模态信息是必要的。

发明内容

本发明提供一种多模态视频标题生成方法、装置、存储介质及存储设备，通过结合多模态信息自动生成视频标题，减少视频制作者投入在构思视频标题上的时间。

为了解决上述问题，本发明采用的一个技术方案是：提供一种多模态视频标题生成方法。其包括：利用相应的特征编码器分别获取预定视频中的文本特征以及视频特征；对文本特征以及视频特征进行融合得到文本视频融合特征；以及利用标题生成器根据文本视频融合特征得到预定视频的视频标题。

本发明采用的另一个技术方案是：提供一种多模态视频标题生成装置，其包括：用于利用相应的特征编码器分别获取预定视频中的文本特征以及视频特征的模块；用于对文本特征以及视频特征进行融合得到文本视频融合特征的模块；以及用于利用标题生成器根据文本视频融合特征得到预定视频的视频标题的模块。

在本发明的另一个技术方案中，提供一种计算机可读存储介质，其存储有计算机指令，其中计算机指令被操作以执行方案中的多模态视频标题生成方法。

在本发明的另一技术方案中，提供一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中，处理器操作计算机指令以执行方案一中的多模态视频标题生成方法。

本申请技术方案可以达到的有益效果是：通过结合多模态信息自动生成视频标题，减少视频制作者投入在构思视频标题上的时间。

附图说明

图1为本发明一种多模态视频标题生成方法一个实施方式的示意图；

图2为本发明一种多模态视频标题生成装置另一个实施方式的示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。