[发明专利]基于深度融合的跨模态大数据检索方法及系统在审
| 申请号: | 202310149747.2 | 申请日: | 2023-02-21 |
| 公开(公告)号: | CN116108215A | 公开(公告)日: | 2023-05-12 |
| 发明(设计)人: | 吴珺;郑欣丽;袁子健;王江鹏;王春枝 | 申请(专利权)人: | 湖北工业大学 |
| 主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/33;G06F18/214;G06F18/25 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
| 地址: | 430068 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 融合 跨模态大 数据 检索 方法 系统 | ||
本发明提供了一种基于深度融合的跨模态大数据检索方法及系统,系统包括:特征提取模块:将预处理后的文本模态输入BERT+BiLSTM网络进行特征提取,图像模态输入Vision Transformer网络进行特征提取;多模态融合模块:将文本和图像特征输入E‑DCCA网络进行多次全连接层的非线性变换,再进行相关性分析得到两种模态的相关性系数,并根据最高相关系数输出对应的图文表示对。本发明能有效提高工作人员对相关资料的检索效率,辅助该地区人民迅速了解当地发展状况,极大的减轻了人工的工作量,提高了人员的工作效率。在网络结构上,本发明能有效学习图像与文本双模态之间的相似性,实现图文跨模态检索,并加入极限学习机来提升网络泛化性能,解决模型过拟合问题。
技术领域
本发明涉及跨模态检索技术领域,尤其涉及一种基于深度融合的跨模态大数据检索方法及系统。
背景技术
随着信息技术的飞速发展,信息的存在形式多种多样,来源也十分广泛,对单一模态的处理不再能满足信息化社会的需求。在治理领域,单一的文本形式难以直观反映事务的发展与需求,结合图像与文本的多模态数据处理技术逐渐成为主流。跨模态检索能够将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合,能有效提升工作人员对复杂信息的处理效率。
治理数据集包含复杂的城市发展信息,包括工业建设、经济发展、医疗卫生服务、生态环境、人才引进等方面的图像和文本双模态信息,充分利用好两种模态之间的内在联系,使用跨模态技术进行学习,能够辅助工作人员更好的进行城市治理,整合建设结果和未来发展方向,提高工作效率,也能帮助城市居民便捷直观的了解城市发展现状。
跨模态检索提供了一些有效的方法,可以为任何模态的给定查询搜索不同模态的语义相关结果,使用户能够获得有关事件/主题的更多信息,从而达到以一种模态数据检索另外一种模态数据的效果。随着数据检索需求以及各种新技术的发展,单一模态检索难以满足用户需求,研究者提出许多跨模态检索的技术来解决这个问题。
目前多模态领域常见的融合模型有:Alec Radford等人提出的CLIP模型,其结构主要由一个文本编码器和一个图像编码器组成,通过计算文本向量和图像向量的相似度进行匹配,但是CLIP使用编码器代替特征提取,需要庞大的训练数据集;Amir Zadeh等人提出的张量融合模型(TFN),是以单模态特征作为输入,使用模态嵌入的3-fold笛卡尔积显示的模拟单模态、双模态和三模态的相互作用,但是TFN需要三种模态的维度进行对齐,导致处理速度不够。
发明内容
本发明的目的在于提供一种基于深度融合的跨模态大数据检索方法及系统,用以解决或者至少部分解决现有技术中存在的效果不佳和融合效率不高的技术问题。
为了解决上述技术问题,本发明采用如下技术方案:
第一方面提供了基于深度融合的跨模态大数据检索方法,包括:
S1:采集原始数据集,对采集的原始数据集进行预处理,其中,采集的原始数据集包括文本数据和图像,定义文本数据为第一模态数据Text,图像数据为第二模态数据Vision;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310149747.2/2.html,转载请声明来源钻瓜专利网。





