[发明专利]一种视频场景分类方法及系统在审
申请号: | 202211023079.0 | 申请日: | 2022-08-25 |
公开(公告)号: | CN115393764A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 庞守恩;沈胜庆;薛兵;杨纪冲 | 申请(专利权)人: | 山东聚祥机械股份有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/80;G06V10/82;G06N3/04;G06N3/08;G06K9/62;H04N21/234;H04N21/44 |
代理公司: | 深圳市广诺专利代理事务所(普通合伙) 44611 | 代理人: | 刘伟 |
地址: | 274900 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 场景 分类 方法 系统 | ||
1.一种视频场景分类方法,其特征在于:包括:在视频的部分模态存在数据缺失的前提下,通过训练好的视频场景分类方法,得到部分模态数据缺失情况下的视频场景分类结果;上述视频场景分类方法包括以下几部分:视频的视觉、声音、文本三个模态数据通过各自非线性映射网络,实现非线性特征变换;所有模态样本经过各自多层神经网络的非线性变换后,转化为新的特征表示,其中缺失的样本采用全零向量表示,为了保持同一样本多个模态之间的语义一致性,将样本集各模态变换后的特征再次加权,加权后的各模态特征与该样本其它模态特征计算相似性;最小化相似性,得到具有松弛一致性的各模态新的特征表示;通过上述松弛一致性保持的约束,得到新的特征向量,计算各模态样本之间的相似性,使得各个模态样本都可以保持特征变换前后的相似性,实现多模态结构保持;通过样本各模态的非线性变换和松弛一致性及结构保持约束,得到视觉、声音、文本三个模态的新的特征表示,将该特征表示向量经过全连接层,得到存在部分模态数据缺失的视频场景分类结果。
2.根据权利要求1所述的一种视频场景分类方法,其特征在于:非线性变换网络包括三个多层神经网络,输入分别为视觉、声音和文本模态原始特征,非线性变换后的特征加权为线性加权。
3.根据权利要求1所述的一种视频场景分类方法,其特征在于:视频场景分类方法训练的过程包括:S1:获取视频场景数据集,去除部分数据构造模态缺失数据集;S2:各模态经过多层神经网络的非线性变换,得到非线性变换后的视觉、声音、文本模态的特征表示;S3:将每个模态变换后的特征表示进行线性加权,并与同一样本其它模态相应加权后特征计算相似性;S4:将每个模态分别计算样本之间的相似性,使得多个模态都可以保持特征变换前后的相似性;S5:对松弛一致性损失和结构性保持损失进行加权求和,通过最小化损失和,学习得到各模态最优的特征表示;S6:最后通过全连接层将三个模态的特征融合,并通过多层神经网络进行分类。
4.根据权利要求3所述的一种视频场景分类方法,其特征在于:S1具体为:对原始真实数据集进行预处理,从中挑选出数据完整的视频作为本方法的ground truth数据集,从中挑选部分视频,去掉其中任一或者两个模态,制造数据缺失数据集;在数据预处理之后还包括:视频各模态数据分离和视频各模态特征提取:视频各模态数据分离:视频数据包含三个模态,分别为视觉模态、声音模态、文本模态;首先通过关键帧提取方法,提取视频数据的关键帧,作为视觉模态数据;然后通过音频提取方法,提取视频的音频信息,作为音频模态的数据;最后将视频中的评论、话题信息作为文本模态的数据;视频各模态特征提取:视频各模态首先进行特征提取,其中视觉模态的各帧通过卷积神经网络提取图像特征;声音模态通过去噪自编码器提取音频特征;文本模态通过sentence2vector方法提取该模态特征,存在数据缺失的各模态数据,特征向量为空。
5.根据权利要求4所述的一种视频场景分类方法,其特征在于:S5中计算松弛一致性损失:松弛一致性损失主要是通过线性变换后计算同意样本不同模态之间的相似性,通过线性加权可以对强一致性损失进行松弛;计算结构性保持损失:通过特征变换前后同一模态不同样本之间的相似性保持,保持视频数据特征变换前后样本之间的相似性。
6.根据权利要求5所述的一种视频场景分类方法,其特征在于:S6中网络训练:将松弛一致性损失和结构性保持损失加权求和,作为特征学习阶段的损失函数,通过反向传播算法进行训练,直到损失收敛或达到某个设定值;将交叉熵损失作为分类阶段的损失函数,通过反向传播算法进行训练,直到损失收敛或达到某个特定值,结束训练过程;判别阶段:将未经训练的测试集样本输入训练好的网络结构,通过学习阶段的网络结构输出特征表示,并将特征表示输入判别网络,输出分类结果。
7.一种权利要求1-6任一项所述的视频场景分类方法的视频场景分类系统,其特征在于:包括:特征学习模块,其被配置为:基于存在部分模态缺失的视频场景数据,采用训练好的特征学习网络结构进行特征学习,得到视觉、声音和文本三个模态的特征表示;视频场景分类模块,其被配置为:基于特征学习模块得到的各模态的特征表示,将其作为本模块的输入,通过本模块的多层神经网络融合多模态特征并进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东聚祥机械股份有限公司,未经山东聚祥机械股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211023079.0/1.html,转载请声明来源钻瓜专利网。