[发明专利]视频摘要生成方法、装置、计算机设备及介质有效
申请号: | 202110552191.2 | 申请日: | 2021-05-20 |
公开(公告)号: | CN113052149B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 杨德杰 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/30;G06N3/04;G06N7/00;G06N3/08 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华;杨毅玲 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 摘要 生成 方法 装置 计算机 设备 介质 | ||
本发明涉及人工智能技术领域,提供一种视频摘要生成方法、装置、计算机设备及介质,包括:将原始视频切分为多个视频片段,并识别每个视频片段的视频文本;提取视频片段的视觉特征向量及提取视频文本的文本语义向量;采用层级注意力机制将所述视觉特征向量及对应的所述文本语义向量进行融合得到融合特征向量;基于Bi‑LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度;以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器;使用所述最优的视频片段选择器生成视频摘要。本发明融合了视频的图像特征和文本特征,生成的视频摘要准确度较高。
技术领域
本发明涉及人工智能技术领域,具体涉及一种视频摘要生成方法、装置、计算机设备及介质。
背景技术
在代理人培训场景下,需要代理人对所学视频课程进行及时复习。而视频课程时长往往过长,为提高代理人的复习效率,需要从原始课程视频中准确提取视频摘要,即整个视频课程的关键片段,帮助代理人有效学习课堂重点内容。
当前的视频摘要技术往往通过识别视频帧图像中人物动作变化,对整个视频构建的帧序列中不同帧进行打分,选取分数最高的几个帧组成视频摘要,只考虑图像蕴含的信息。但在课堂视频中,教师动作常常比较单一,不同帧之间的图像差异较小,教师授课的语言内容成为选取关键片段更重要的部分。另外,以帧为单位打分粒度过小,融合成的视频摘要会出现不连贯的问题,导致视频摘要抽取效果较差。
发明内容
鉴于以上内容,有必要提出一种视频摘要生成方法、装置、计算机设备及介质,生成的视频摘要准确度较高。
本发明的第一方面提供一种视频摘要生成方法,所述方法包括:
对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本;
提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量;
提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量;
采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量;
基于Bi-LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度;
以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器;
使用所述最优的视频片段选择器生成视频摘要。
根据本发明的一个可选的实施方式,所述使用所述最优的视频片段选择器生成视频摘要包括:
使用所述最优的视频片段选择器计算每个视频片段的目标重要度;
对所述目标重要度进行离散化处理得到离散值;
获取所述离散值中的目标离散值及获取所述目标离散值对应的目标视频片段;
根据所述目标视频片段生成视频摘要。
根据本发明的一个可选的实施方式,所述提取所述视频片段的第一视觉特征向量包括:
分割所述视频片段为多个视频帧;
利用DeepCNN提取所述视频帧的特征向量;
计算所述视频片段的多个视频帧的特征向量的均值,得到所述第一视觉特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110552191.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:糖肾祛湿方及其应用
- 下一篇:货物存储空间调整方法、装置、设备及存储介质