[发明专利]多模态的融合方法、装置、设备及介质在审
申请号: | 202310145041.9 | 申请日: | 2023-02-17 |
公开(公告)号: | CN116204848A | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 舒畅;陈又新 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F18/25 | 分类号: | G06F18/25;G06N3/0455;G06N3/08 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;宋莉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 融合 方法 装置 设备 介质 | ||
本发明涉及人工智能技术领域,提供了一种多模态的融合方法、装置、设备及介质,其中,方法包括:通过对多个模态进行编码,得到各个模态的特征向量,并进行预处理,得到各个模态对应的特征向量,根据各个目标特征向量对应的维度为每个目标特征向量设置多个权重矩阵,以获取暂时向量并进行逐元素相加,得到模态向量,并进行融合操作,得到多个模态对应的总向量,可以应用于电子商务,通过神经网络进行实现。本发明的有益效果:实现了保留更多的模态信息,使最终的总向量的融合效果更好。
技术领域
本发明涉及人工智能技术领域,特别涉及一种多模态的融合方法、装置、设备及介质。
背景技术
目前,多模态学习已成为近年来不断研究的热点之一。模态指的是信息的来源或者形式,例如,一种信息可以通过视频、语音、图像、文字等多种形式进行表现,则每一种形式的表现都是该信息的一种模态。目前,在电子商务领域中,业内多模态特征融合一般是把多个模态的特征向量拼接在一起,然而这种方法会丢失许多的模态信息,导致融合的效果不理想。
发明内容
本发明的主要目的为提供一种多模态的融合方法、装置、设备及介质,旨在解决现有的多模态特征融合方法会丢失许多的模态信息,导致融合的效果不理想的问题。
本发明提供了一种多模态的融合方法,包括:
获取多个待融合的模态;
将各个所述待融合的模态经过编码器进行编码,得到各个所述待融合的模态对应的特征向量;
对所述特征向量进行预处理,得到各个所述特征向量的目标特征向量;其中预处理的方式为对所述特征向量进行增加或者减少维度;
根据各个所述目标特征向量对应的维度为每个所述目标特征向量设置多个权重矩阵;其中,所述权重矩阵的横列数量与所述目标特征向量的纵列数量相同,各个所述权重矩阵的纵列数量为预设值;
将各个所述目标特征向量与对应的多个所述权重矩阵相乘,得到各个所述目标特征向量分别对应的多个暂时向量,其中,所述暂时向量的数量与所述权重矩阵相同;
将各个所述目标特征向量对应的多个所述暂时向量进行逐元素相加,得到各个所述目标特征向量对应的且纵列数量为预设值的模态向量;
将所述模态向量进行融合操作,得到多个模态对应的总向量。
进一步地,所述对所述特征向量进行预处理,得到各个所述特征向量的目标特征向量的步骤,包括:
对所述特征向量的最后一个位置增加一个标量为1的维度,得到目标特征向量。
进一步地,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤,包括:
将各个模态向量进行向量内积操作,得到多个模态对应的总向量。
进一步地,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤,包括:
将各个模态向量进行向量拼接,得到拼接向量;
将所述拼接向量输入全连接层,在全连接层乘以n×m*m的权重,得到总向量;其中,n为模态向量的个数,m为所述预设值。
进一步地,所述将各个所述待融合的模态经过编码器进行编码,得到各个所述待融合的模态对应的特征向量的步骤,包括:
获取各个模态的表现形式;其中表现形式至少包括文本、图像、语音三种表现形式;
根据各个模态的表现形式设置对应的编码器;
利用对应的编码器对各个模态进行编码,得到各个模态对应的特征向量。
进一步地,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤之后,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310145041.9/2.html,转载请声明来源钻瓜专利网。