[发明专利]一种视频分割方法、装置、设备及存储介质在审
申请号: | 202111531811.0 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114299074A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 程星;吴翔宇 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06T7/10 | 分类号: | G06T7/10;G06T5/50 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 分割 方法 装置 设备 存储 介质 | ||
本公开关于一种视频分割方法、装置、设备及存储介质,涉及图像处理领域。本公开实施例至少解决相关技术中,基于场景对视频分割不准确的问题。该方法包括:获取待分割视频,并确定待分割视频所包括的多个视频片段;确定每个视频片段的片段特征;基于每个视频片段的片段特征,以及预训练的自注意力模型,将多个视频片段划分至多个场景;自注意力模型用于根据相邻两个视频片段中每个视频片段的片段特征确定相邻两个视频片段之间的相关性;基于划分得到的多个场景,分割待分割视频。
技术领域
本公开涉及计算机领域,尤其涉及一种视频分割方法、装置、设备及存储介质。
背景技术
在视频处理的任务中,可以采用基于卷积神经网络的视频分割方法,按照视频拍摄的场景不同,将视频分割为多个场景。其中,每个场景是由很多个不同的图像组成的视频片段;同时,在每一个视频片段所包括的多个图像帧之间具有较高的相似度以及语义上的连续性。具体的,采用预先训练好的卷积神经网络,提取视频中的每一帧图像的图像特征,并基于图像特征之间的相似度,判断相邻的两个图像帧是否属于同一个场景,并进一步的根据判断结果,对视频进行分割。
但是采用上述视频分割方法,由于卷积神经网络的归纳偏置的特性天然的适用于对图像特征的提取,但是对于相邻图像帧帧的特征的比较、总结的性能不足,基于场景对视频进行分割的结果不够准确。
发明内容
本公开提供一种视频分割方法、装置、设备及存储介质,以至少解决相关技术中,基于场景对视频分割不准确的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种视频分割方法,包括:获取待分割视频,并确定待分割视频所包括的多个视频片段;确定每个视频片段的片段特征;基于每个视频片段的片段特征,以及预训练的自注意力模型,将多个视频片段划分至多个场景;自注意力模型用于根据相邻两个视频片段中每个视频片段的片段特征确定相邻两个视频片段之间的相关性;基于划分得到的多个场景,分割待分割视频。
可选的,上述确定每个视频片段的片段特征,包括:确定每个视频片段的图像特征以及每个视频片段的文本特征;根据每个视频片段的图像特征以及文本特征,确定每个视频片段的片段特征。
可选的,上述确定每个视频片段的图像特征以及每个视频片段的文本特征,包括:从每个视频片段所包括的多个图像帧中确定关键图像帧;关键图像帧位于多个图像帧中的预设位置;基于关键图像帧以及预训练的第一神经网络,确定关键图像帧的图像特征,并将关键图像帧的图像特征确定为每个视频片段的图像特征;第一神经网络用于对输入的图像帧进行卷积处理,以得到对应的图像特征;确定多个图像帧的文本信息,并根据文本信息以及预训练的第二神经网络,确定每个视频片段的文本特征;第二神经网络用于对输入的文本信息进行卷积处理,以得到对应的文本特征。
可选的,上述基于关键图像帧以及预训练的第一神经网络,确定关键图像帧的图像特征,包括:将关键图像帧裁剪为多个子图像帧,并根据多个子图像帧以及第一神经网络,生成多个子图像帧的图像特征;将多个子图像帧的图像特征进行平均池化,以得到关键图像帧的图像特征。
可选的,上述基于每个视频片段的片段特征,以及预训练的自注意力模型,将多个视频片段划分至多个场景,包括:将每个视频片段的图像特征以及每个视频片段的文本特征输入自注意力模型的第一自注意力层中,并基于第一自注意力层确定的特征权重,对每个视频片段的图像特征以及每个视频片段的文本特征进行加权,以得到每个视频片段的第一融合特征;对于多个视频片段中的相邻视频片段,将相邻视频片段的第一融合特征均输入到自注意力模型的第二自注意力层中,并基于第二自注意力层确定的特征权重,对相邻视频片段的第一融合特征进行加权,以得到对应相邻视频片段的第二融合特征;将对应相邻视频片段的第二融合特征输入到自注意力模型的全连接层中,以确定相邻视频片段之间的相关性;根据相邻视频片段之间的相关性,确定针对相邻视频片段的场景分割结果;场景分割结果指示相邻视频片段是否位于同一场景;根据多个视频片段中每个相邻视频片段的场景分割结果,将多个视频片段划分至多个场景。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111531811.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纳米硅钛肥及其制备方法
- 下一篇:光电离-四极杆质谱系统