[发明专利]一种基于深度矩阵分解的短视频多标签分类方法在审
申请号: | 202211421328.1 | 申请日: | 2022-11-14 |
公开(公告)号: | CN115713655A | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 吕卫;历天一;褚晶辉 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/80;G06V20/40;G06V10/77;G06N20/20;H04N21/439;H04N21/44;H04N21/234 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 矩阵 分解 视频 标签 分类 方法 | ||
本发明公开了一种基于深度矩阵分解的短视频多标签分类方法,包括:将短视频数据集划分为训练集、验证集和测试集,通过特征提取分别提取输入短视频的视频特征、音频特征和光流特征;利用索引矩阵、样本关系矩阵、标签编码矩阵和标签关系矩阵对样本和标签的潜在相关信息进行编码,对视频特征、音频特征和光流特征分别进行深度矩阵分解,得到通用编码矩阵;利用通用编码矩阵,通过深度分解分别得到视频特征、音频特征和光流特征的个性解码矩阵;将视频特征、音频特征和光流特征的个性解码矩阵拼接后,输入到多标签分类器中得到最终的多标签分类结果。本发明有效地增强了特征之间融合能力,保证了特征完备性和独特性,提高了短视频多标签分类准确性。
技术领域
本发明涉及短视频多标签分类领域,尤其涉及一种基于深度矩阵分解的短视频多标签分类方法。
背景技术
随着信息化时代的到来,短视频逐渐取代传统的图像和文字,成为越来越多的用户在社交媒体上的表达载体。作为机器学习领域的重要研究方向之一,短视频多标签分类目前尚处于初期阶段。其主要挑战在于短视频的各个低级特征与高级标签语义之间巨大的语义鸿沟以及标签的多样性。针对第一个挑战,当前大多数算法关注于通用特征提取的设计,利用矩阵分解或注意力机制提取通用特征;针对第二个挑战,利用标签相关性的图神经网络学习成为新的学习范式。图神经网络学习是一种更宽泛的学习范式,能够更有效地表达标签的内在关系和重要程度。
尽管如此,如何有效跨越低级特征与高级标签语义之间的语义鸿沟以及如何充分利用多标签之间的关联性仍然是有价值的研究方向。因此提出一种有效提取通用特征和个性特征和充分发掘多标签之间关联性的短视频多标签分类算法是有意义的。
发明内容
本发明提供了一种基于深度矩阵分解的短视频多标签分类方法,本发明针对目前短视频多标签分类算法存在的不足,提出了一种基于深度矩阵分解的短视频多标签分类方法,充分挖掘视频、音频和光流的通用语义特征和个性语义特征,补充样本和标签的潜在相关信息,获取更加完备的短视频特征表示,从而更加精准地对短视频进行多标签分类,详见下文描述:
一种基于深度矩阵分解的短视频多标签分类方法,该方法包括以下步骤:
将短视频数据集划分为训练集、验证集和测试集,通过特征提取分别提取输入短视频的视频特征、音频特征和光流特征;
利用索引矩阵、样本关系矩阵、标签编码矩阵和标签关系矩阵对样本和标签的潜在相关信息进行编码,对视频特征、音频特征和光流特征分别进行深度矩阵分解,得到通用编码矩阵;
利用通用编码矩阵,通过深度分解,分别得到视频特征、音频特征和光流特征的个性解码矩阵;
将视频特征、音频特征和光流特征的个性解码矩阵拼接后,输入到多标签分类器中得到最终的多标签分类结果。
其中,所述提取输入短视频的视频特征、音频特征和光流特征分别为:
输入短视频的视频特征提取方法是Inception v2,音频特征提取方法是MFCC,光流特征提取方法是在Lucas-Kanade光流算法得到的结果上,再使用Inception v2。
进一步地,所述利用索引矩阵、样本关系矩阵、标签编码矩阵和标签关系矩阵对样本和标签的潜在相关信息进行编码具体为:
Qk∈RN×N,Zk∈RN×N,Pk∈RN×C,L∈RC×C
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211421328.1/2.html,转载请声明来源钻瓜专利网。