[发明专利]多模态细粒度混合方法、系统、设备和存储介质有效
| 申请号: | 202110094267.1 | 申请日: | 2021-01-25 |
| 公开(公告)号: | CN112819052B | 公开(公告)日: | 2021-12-24 |
| 发明(设计)人: | 廖清;廖鑫鑫;漆舒汉;蒋琳;王轩 | 申请(专利权)人: | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;颜希文 |
| 地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多模态 细粒度 混合 方法 系统 设备 存储 介质 | ||
本发明涉及机器视觉技术领域,公开了一种多模态细粒度混合方法、系统、设备和存储介质,所述多模态细粒度混合方法包括:从多模态图文数据中提取数据特征,并获取数据特征的各个组成成分;数据特征包括视觉区域特征和文本单词特征;对数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;根据分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。本发明实施例提供的多模态细粒度混合方法在多模态细粒度混合时不以模态为单位进行,考虑到了各模态中不同组成成分的特点,所处上下文环境的差异,选择对应的合适的交互方式,可以使得多模态模型在利用多模态数据互补的特点的同时,避免不相关信息的影响。
技术领域
本发明涉及机器视觉技术领域,特别是涉及一种多模态细粒度混合方法、系统、设备和存储介质。
背景技术
随着互联网技术的飞速发展,文字、图像、音频、视频等数据正在呈指数式增长,多种模态的数据从不同的角度描述着同一个事件或者主题,使人们对其的理解更加充分与丰富。如何有效利用多模态数据完成相应场景下的指定任务,成为研究领域的研究热点。
近几年来,随着深度学习技术的快速发展,人们越来越有能力解决更加复杂的机器学习问题,在分析处理多模态数据方面也取得了巨大的进步。很多多模态应用领域也引起了研究者的研究兴趣,如人类行为识别(human activity recognition),医疗应用(medical applications),自动驾驶(autonomous driving),图像视频标注(image andvideo annotations),跨模态检索(cross-modal retrieval)等等。
然而,目前现有的多模态学习的方法选择模态间信息交互的方式时,都是以模态为单位。例如在图文多模态中,以图片模态和文本模态为单位,进行模态间和模态内的交互。对于单个模态中的不同组成成分,使用的是相同的交互方式。其中组成成分代表图片模态中的每一个区域特征或者是文本句子中的每一个单词。但是在多模态数据中,单模态内不同组成成分具有各自不同的特点,因此需要使用不同的交互方式。现有的多模态学习方法忽略了这一点,会使得单模态中某些组成成分融入另一个模态的无关信息。
发明内容
本发明的目的是:提供一种多模态细粒度混合方法,以多模态数据中单模态内的组成成分为单位,自适应的选择交互方式,实现多模态细粒度的信息交互。该方法将会根据不同组成成分的特点,选择合适的混合交互方法,在使用多模态数据中模态间关联关系的信息的同时,避免不相关信息的影响。
为了实现上述目的,本发明提供了一种多模态细粒度混合方法,所述方法包括:从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。
可选的,所述从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分的步骤包括:从多模态图文数据中,通过Faster RCNN模型获得视觉区域特征V,V=RCNN(I;θRCNN);其中,I为输入的图片数据,LV为所述视觉区域特征中的组成成分的个数,dV为所述视觉区域特征的长度。
从多模态图文数据中,通过门控循环单元GRU获得文本单词特征E,E=GRU(Q,θGRU);其中,Q为输入的文本数据,LE表示所述文本数据的整体的长度,dE表示所述文本单词特征的组成成分的长度。
通过全连接层将所述视觉区域特征V和所述文本单词特征E转换到相同维度的向量,获得所述视觉区域特征V中的视觉特征组成成分Vi和所述文本单词特征E中的文本特征组成成分Ei。
其中,i∈[1,LV]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),未经哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110094267.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于药材脱水保存设备
- 下一篇:一种设过偏检测结构的龙门吊





