[发明专利]一种基于交叉监督的多模态数据分类方法及装置在审
申请号: | 202210773999.8 | 申请日: | 2022-07-01 |
公开(公告)号: | CN115130591A | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 朱心洲;潘晓华;沈诗靖 | 申请(专利权)人: | 浙江大学;浙江大学滨江研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 高燕 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 交叉 监督 多模态 数据 分类 方法 装置 | ||
本发明公开了一种基于交叉监督的多模态数据分类方法,包括:步骤1、获取多模态数据,构建包含标已注数据和未标注数据的样本集;步骤2、以同一个网络结构为基础,构建第一分类模型与第二分类模型;步骤3、利用样本集,对第一分类模型与第二分类模型进行训练与参数调整;步骤4、采用已标注数据,分别训练获得的第一分类模型与第二分类模型进行测试,选取测试结果最好的模型作为最终的多模态数据分类模型;步骤5、将待分类的多模态数据输入至多模态数据分类模型,输出多模态数据对应的分类结果。本发明还提供了一种多模态数据分类装置。本发明提供的方法可以在小样本多模态数据的条件下,保证分类模型的鲁棒性、泛化能力及预测准确率。
技术领域
本发明涉及深度学习的数据分类技术领域,尤其涉及一种基于交叉监督的多模态数据分类方法及装置。
背景技术
互联网、5G技术的发展为深度学习研究提供了大量的多模态数据(指包含文本、视频、视频、图像)的数据,使用多模态数据进行研究时,可以充分利用各模态数据的特征,从而避免单一模态数据表现力有限的情况,如在使用深度学习进行短视频分类预测任务时,仅使用短视频标题数据进行分类,数据较为片面,影响分类准确,而同时结合视频、音频等模态数据可以更好的获得预测结果,而在多模态数据场景中,经过人工进行类别标记的数据少,未标记的数据多,如何在模型训练过程中,结合已标记的数据和未标记的数据,从而提升模型预测的精度,成为了一个重要的问题。
专利文献CN114443864A公开了一种跨模态数据的匹配方法、装置及计算机程序产品,该方法:获取训练样本集;其中的训练样本集包括第一模态数据、第二模态数据和表征多模态数据之间是否匹配的标签;分别提取训练样本中的第一模态数据和第二模态数据的第一层特征信息和第二层级特征信息;以匹配损失约束第一模态数据与第二模态数据之间基于第一层级特征信息得到的匹配结果,和基于第二层级特征信息的匹配结果,以分类损失函数约束分别基于第一模态数据和第一层级特征信息、第二层级特征信息得到的分类结果,和分别基于第二模态数据的第一层级特征信息、第二层级特征信息得到的分类结果,训练得到跨模态匹配模型。该方法可以较好的利用无标注的多模态数据,通过跨模态的对比学习提高模型对不同模态数据关联性,但若要应用在多模态数据分类场景中,则需要根据有标注的数据结合该模型重新训练一个模型,且模型的网络结构很多时候不能共用,且后期根据新数据对模型参数进行更新较为麻烦,成本较高。
专利文献CN110363239A公开了一种面向多模态数据的小样本机器学习方法、系统和介质,该方法包括利用多模态数据表征,层级池化以及关系网络3个功能模块进行训练和测试,首先通过编码器将多模态数据特征向量化,然后采用先最大池化再平均池化的层级池化将时间/空间连续的向量序列降维归纳为类别特征向量,最后基于关系网络做展开小样本条件下的学习分类。该方法仅使用已有的少量、部分已标记数据,不仅会使得模型有较差的泛化能力,而且无法利用未标记样本数据中的信息,从而影响模型的鲁棒性、泛化能力及预测准确率。
发明内容
为了解决上述问题,本发明提供了一种基于交叉监督的多模态数据分类方法,该方法可以在小样本多模态数据的条件下,完成分类模型的训练,同时保证分类模型的鲁棒性、泛化能力及预测准确率。
一种基于交叉监督的多模态数据分类方法,包括:
步骤1、获取多模态数据,并对部分多模态数据以文本,音频以及视频三个维度进行标签标注,构建包含标已注数据和未标注数据的样本集;
步骤2、以同一个网络结构为基础,构建第一分类模型与第二分类模型,所述第一分类模型与所述第二分类模型的参数初始化方式不同;
步骤3、利用步骤1构建的样本集,对步骤2构建的第一分类模型与第二分类模型进行训练与参数调整,所述训练包括监督训练和交叉监督训练;
步骤4、采用已标注数据,分别对步骤3训练获得的第一分类模型与第二分类模型进行测试,根据测试结果筛选出对应F1值更高的模型,作为最终的多模态数据分类模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学;浙江大学滨江研究院,未经浙江大学;浙江大学滨江研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210773999.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种管理软件系统的设计方法
- 下一篇:一种耐高温密封垫环的制备工艺