[发明专利]基于深度融合的跨模态大数据检索方法及系统在审
| 申请号: | 202310149747.2 | 申请日: | 2023-02-21 |
| 公开(公告)号: | CN116108215A | 公开(公告)日: | 2023-05-12 |
| 发明(设计)人: | 吴珺;郑欣丽;袁子健;王江鹏;王春枝 | 申请(专利权)人: | 湖北工业大学 |
| 主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/33;G06F18/214;G06F18/25 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
| 地址: | 430068 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 融合 跨模态大 数据 检索 方法 系统 | ||
1.基于深度融合的跨模态大数据检索方法,其特征在于,包括:
S1:采集原始数据集,对采集的原始数据集进行预处理,其中,采集的原始数据集包括文本数据和图像,定义文本数据为第一模态数据Text,图像数据为第二模态数据Vision;
S2:将第一模态数据输入基于Transformer的双向编码器和双向长短记忆网络结合的模块BERT-BiLSTM中进行特征抽取,得到第一模态特征向量T=(t1,t2,…,tn),其中,n为第一模态特征向量的长度,t1,t2,…,tn分别表示第一模态特征向量中的第一个、第二个和第n个元素;将第二模态数据输入基于自注意力机制的图像分类方法Vision Transformer网络进行特征抽取,得到第二模态特征向量V=(v1,v2,…,vm),其中,V表示图像模态向量,m为第一模态特征向量的长度,v1,v2,…,vm分别表示第二模态特征向量中的第一个、第二个和第n个元素;
S3:将第一模态特征向量T=(t1,t2,…,tn)和第二模态特征向量V=(v1,v2,…,vm)输入极限学习机及深度典型相关性网络的组合模块:E-DCCA模型,进行多模态特征融合,其中,E-DCCA模型包括极限学习机和深度典型相关性网络,极限学习机用于对输入的第一模态特征向量和第二模态特征向量进行处理得到第一模态特征信息和第二模态特征信息;深度典型相关性网络用于对第一模态特征信息和第二模态特征信息进行相关性分析,输出两组模态特征信息的相关系数;
S4:对E-DCCA模型进行训练并学习最优隐层参数,得到使步骤S3中模态特征信息的相关系数尽可能大的隐层参数;使用最优隐层参数来学习图文多模态数据的相关系数,并根据最高相关系数输出对应的模态表示。
2.如权利要求1所述的基于深度融合的跨模态大数据检索方法,其特征在于,步骤S1中对采集的原始数据集进行预处理,包括:
对第一模态数据进行填补或截断,在句首加入[CLS]标识,句尾加入[SEP]标识,然后输入词元获得词向量;对第二模态数据进行降噪、增强和分割;其中,第一模态数据Text,经过预处理后得到的数据特征表示为T∈Rb×len×ht,第二模态数据Vision经过数据预处理后得到的数据特征表示为V∈Rb×len×hv;其中,b是batch_size的大小,表示预设阈值,len表示数据的固定长度,ht、hv分别表示第一模态数据和第二模态数据经过数据预处理后的得到的数据特征维度。
3.如权利要求1所述的基于深度融合的跨模态大数据检索方法,其特征在于,BERT-BiLSTM包括BERT模块和BiLSTM网络,步骤S2中将第一模态数据输入基于Transformer的双向编码器和双向长短记忆网络结合的模块BERT-BiLSTM中进行特征抽取,包括:
通过BERT模块进行词嵌入,将文本数据转化成词向量;
将转化得到的词向量输入BiLSTM网络进行特征抽取。
4.如权利要求1所述的基于深度融合的跨模态大数据检索方法,其特征在于,步骤S3中极限学习机的处理过程包括:
对输入的第一模态特征向量和第二模态特征向量分别进行多次全连接层的非线性变换,得到经过权重矩阵和偏置调整得到第一模态特征信息和第二模态特征信息,表示为T′=(t1′,t2′,…,tn′)和V′=(v1′,v2′,…,vm′)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310149747.2/1.html,转载请声明来源钻瓜专利网。





