[发明专利]一种基于深度哈希编码的短视频多标签快速分类方法有效
申请号: | 202110042475.7 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112732976B | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 井佩光;张凯;李亚鑫;苏育挺 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/75;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 编码 视频 标签 快速 分类 方法 | ||
本发明公开了一种基于深度哈希编码的短视频多标签快速分类方法,包括:将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行內积后、与真实标签矩阵构成的交叉熵损失函数作为第二目标函数;将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果。
技术领域
本发明涉及社交媒体环境下的短视频快速分类领域,尤其涉及一种基于深度哈希编码的短视频多标签快速分类方法。
背景技术
新世纪以来,随着智能手机及其他终端设备的普及和移动互联网的兴起,多媒体信息处理领域获得了越来越多的关注。当今,生活节奏的加快,人们更倾向于浏览短小的视频,短视频也正快速地融入到人们生活中的方方面面。
从以往的一个电影或者电视剧的长视频信息,到如今人们更倾向于利用碎片化的时间,浏览各个社交平台发布和分享短视频信息。如何能够更加有效地挖掘和管理短视频为用户提供更加精准的服务变得越来越重要,短视频智能分析成为一个极具有前景的研究方向。
尽管移动互联网时代的发展使得短视频数据量变得越来越庞大,但得益于近年硬件设备的发展和算力的提高,以机器学习尤其是深度学习为代表的人工智能技术开始加速发展。在此背景下,利用深度学习对海量的短视频进行智能分析和处理成为了一种必然趋势。
发明内容
本发明致力于解决短视频所面临的多标签分类问题,由于一个短视频具有多个模态,并且往往是多个标签,如何有效地进行多模态的融合和多标签的分类面临挑战;同时短视频的数据量巨大,如何能够高效快速的进行分类也至关重要,本发明基于此,提出了基于深度哈希的短视频多标签快速分类方法,详见下文描述:
一种基于深度哈希编码的短视频多标签快速分类方法,所述方法包括:
将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;
由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行内积后、与真实标签矩阵构成的交叉熵损失函数作为第二目标函数;
将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;
将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果。
其中,所述将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构具体为:在给定各个视角特征时对其潜在表示进行最大似然建模:
其中,是控制从潜在表示H到特征矩阵的网络参数,包括为第v个视角下的权重参数,为第v个视角下的偏差参数,∝为正比符号,为重构损失;
最大化对数似然函数等价于最小化重构损失构成多视角子空间重构学习项U(v)为:
其中,为矩阵U(v)的每一列,hn为每个样本的潜在表示,a(·)为激活函数,分别为子空间编码网络的权重和偏置,U(v)为编码网络的输出,X(v)为各个视角下的样本矩阵,V为视角的数量,v代表不同视角的序号,||.||F2代表F范数的平方。
进一步地,所述第三目标函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110042475.7/2.html,转载请声明来源钻瓜专利网。