[发明专利]一种跨模态匹配方法及系统有效
申请号: | 202111129751.X | 申请日: | 2021-09-26 |
公开(公告)号: | CN114067233B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 彭玺;黄振宇 | 申请(专利权)人: | 四川大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/30;G06V10/75;G06V10/774;G06V10/82;G06N3/045;G06N3/047;G06N3/08 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 何凡 |
地址: | 610064 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 跨模态 匹配 方法 系统 | ||
本发明公开了一种跨模态匹配方法及系统,涉及计算机多模态学习领域,包括:神经网络预热子系统、数据划分子系统、标签协同修正子系统和神经网络训练子系统。本发明设计了基于两神经网络的跨模态匹配方法,在两神经网络预热之后,自适应地协同修正多模态样本的标签,并通过标签修正后的多模态样本集交叉训练两神经网络,使跨模态匹配具有鲁棒性,能应对错误对齐的多模态数据。
技术领域
本发明涉及计算机多模态学习领域,具体涉及一种跨模态匹配方法及系统。
背景技术
跨模态匹配作为多模态学习中最基本的技术之一,旨在连接不同的模态,实现跨模态数据的精准匹配。近年来,一些基于深度神经网络(DNN,Deep Neural Networks)的跨模态匹配方法被提出,在多种应用中取得了显著的进展,如图像/视频的描述生成、跨模态检索和视觉问题回答。
跨模态匹配可以分为两类:1)粗粒度的匹配。它通常利用多个神经网络来计算一个全局特征,每个网络用于一个特定的模式。例如,通过使用一个卷积神经网络(CNN,Convolutional Neural Networks)和一个门控递归单元(GRU,Gated Recurrent Unit)来获得图像和文本特征,同时强制要求正数对的相似度大于负数对的相似度。2)细粒度匹配。通过测量跨模态匹配的细粒度相似性。例如,通过由自下而上的注意力和图神经网络(GRN,Graph Neural Networks)学习图像区域和单词之间的潜在语义对应关系,并实现跨模态匹配。
跨模态匹配的成功取决于一个隐含的数据假设,即训练数据在不同模态间正确对齐。例如,在视觉和语言任务中,文本需要准确描述图像内容,反之亦然。然而,在工程中,注释或收集这样的数据对是非常耗时、耗人力的,尤其是互联网上收集的数据。互联网数据在收集过程中不可避免地出现不匹配的数据对,这些数据对也易被错误地当作匹配的数据。
发明内容
针对现有技术中的上述不足,本发明提供的一种跨模态匹配方法及系统解决了现有跨模态匹配方法无法正确处理错误对齐的多模态数据的问题。
为了达到上述发明目的,本发明采用的技术方案为:
第一方面,一种跨模态匹配方法,包括以下步骤:
S1、初始化多模态信息,构建多模态样本集;
S2、建立第一神经网络和第二神经网络,并根据多模态样本集,通过预热损失函数,对第一神经网络和第二神经网络进行预热;
S3、通过预热后的第一神经网络和第二神经网络,对多模态样本集进行数据划分;
S4、通过自适应预测函数,根据多模态样本集的数据划分结果,对多模态样本集进行标签协同修正;
S5、根据标签协同修正后的多模态样本集对第一神经网络和第二神经网络进行网络交叉训练;
S6、判断第一神经网络和第二神经网络是否均已收敛,若是,则跳转至步骤S7,若否,则跳转至步骤S3;
S7、通过已收敛的第一神经网络和第二神经网络完成跨模态匹配。
本发明的有益效果为:设计了基于两神经网络的跨模态匹配方法,在两神经网络预热之后,自适应地协同修正多模态样本的标签,并通过标签修正后的多模态样本集交叉训练两神经网络,使跨模态匹配具有鲁棒性,能应对错误对齐的多模态数据。
进一步地,所述步骤S1构建的多模态样本集中的每一个样本均包括样本数据和样本标签。
进一步地,所述样本数据包括图片模态数据和文字模态数据。
进一步地,所述步骤S2的预热损失函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111129751.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:移动式钢包维修设备
- 下一篇:一种行人检测方法、装置、电子设备及存储介质