[发明专利]视频摘要生成方法、装置、电子设备及存储介质在审
| 申请号: | 202210028911.X | 申请日: | 2022-01-11 |
| 公开(公告)号: | CN114359810A | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 舒畅;陈又新 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06F40/284;G06N3/04;G06N3/08;G06V10/82 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 廖慧贤 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 摘要 生成 方法 装置 电子设备 存储 介质 | ||
本申请实施例提供了一种视频摘要生成方法、装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取视频数据;通过预设的视频提取模型对视频数据进行视频提取,得到多个视频片段;对视频片段进行编码处理,得到视频隐藏特征向量;将视频隐藏特征向量与预设的参考词向量进行矩阵相乘处理,得到视频描述词段;通过预设的文本识别模型对视频描述词段进行文本识别处理,得到视频摘要语句;根据预设的拼接顺序对视频摘要语句进行拼接处理,得到视频摘要文本。本申请实施例能够提高生成视频摘要的准确性。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种视频摘要生成方法、装置、电子设备及存储介质。
背景技术
目前,在对视频进行摘要提取时,常常采用监督学习的方式:将视频数据等输入至训练好的监督学习模型,通过监督学习模型对视频数据进行处理,得到视频摘要;但是监督学习模型对训练集的人工标注要求较高,而人工标注的方式往往会存在着较大的人为误差,会影响视频摘要的准确性。因此,如何提高生成视频摘要的准确性,成为了亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提出一种视频摘要生成方法、装置、电子设备及存储介质,旨在提高生成视频摘要的准确性。
为实现上述目的,本申请实施例的第一方面提出了一种视频摘要生成方法,所述方法包括:
获取视频数据;
通过预设的视频提取模型对所述视频数据进行视频提取,得到多个视频片段;
对所述视频片段进行编码处理,得到视频隐藏特征向量;
将所述视频隐藏特征向量与预设的参考词向量进行矩阵相乘处理,得到视频描述词段;
通过预设的文本识别模型对所述视频描述词段进行文本识别处理,得到视频摘要语句;
根据预设的拼接顺序对所述视频摘要语句进行拼接处理,得到视频摘要文本。
在一些实施例,所述视频提取模型包括双流网络、BM层、卷积层和预设函数,所述通过预设的视频提取模型对所述视频数据进行视频提取,得到多个视频片段的步骤,包括:
通过所述双流网络对所述视频数据进行特征提取,得到视频特征;
通过BM层将预设的权重矩阵与所述视频特征进行点乘处理,得到视频特征图;
通过所述卷积层对所述视频特征图进行卷积处理,得到视频特征置信度图;
通过所述预设函数对所述视频特征的每一时序位置进行特征概率计算,得到时序概率值;
根据所述视频特征置信度图和所述时序概率值对所述视频数据进行分割处理,得到所述视频片段。
在一些实施例,所述文本识别模型包括Bert层和Transformer层,所述通过预设的文本识别模型对所述视频描述词段进行文本识别处理,得到视频摘要语句的步骤,包括:
对所述视频描述词段进行词向量化处理,得到每一所述视频描述词段对应的视频描述词向量;
通过所述Bert层对所述视频描述词向量进行嵌入处理,得到视频描述表征向量;
通过所述Transformer层对每一所述视频描述表征向量进行文本分值计算,得到每一所述视频描述表征向量的文本分值;
根据所述文本分值对所述视频描述词段进行筛选处理,得到视频摘要语句。
在一些实施例,所述通过所述Bert层对所述视频描述词向量进行嵌入处理,得到视频描述表征向量的步骤,包括:
通过所述Bert层中预设的参考段嵌入向量对所述视频描述词向量进行段嵌入处理,得到视频段嵌入向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210028911.X/2.html,转载请声明来源钻瓜专利网。





