[发明专利]基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法有效
| 申请号: | 202010791032.3 | 申请日: | 2020-08-07 |
| 公开(公告)号: | CN111985369B | 公开(公告)日: | 2021-09-17 |
| 发明(设计)人: | 宋凌云;俞梦真;尚学群;李建鳌;彭杨柳;李伟;李战怀 | 申请(专利权)人: | 西北工业大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西北工业大学专利中心 61204 | 代理人: | 刘新琼 |
| 地址: | 710072 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 跨模态 注意力 卷积 神经网络 课程 领域 多模态 文档 分类 方法 | ||
本发明涉及一种基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法,对课程领域的多模态文档数据预处理;将注意力机制和稠密卷积网络相结合,提出了基于跨模态注意力的卷积神经网络,能更为有效的构建到具有稀疏性的图像特征;提出了面向文本特征构建的基于注意力机制的双向长短期记忆网络,可以高效构建与图像语义局部关联的文本特征;设计基于注意力机制的跨模态分组融合,能够更为准确地学习到文档中图像和文本局部关联关系,提高跨模态特征融合的准确率。在相同课程领域的数据集下,相比现有的多模态文档分类模型,该方法具有更好的性能,提高了多模态文档数据分类的准确率。
技术领域
本发明属于计算机应用领域、多模态数据分类、教育数据分类、图像处理、文本处理、特别涉及一种基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法。
背景技术
随着科学技术的发展,计算机在各个领域所要处理的数据从单一的图像,已经转变成形式和内容更加丰富的图像,文本,音频等多模态数据。多模态文档的分类在视频分类,视觉问答,社交网络的实体匹配等方面都有应用。多模态文档分类的准确性取决于,计算机是否能准确地理解文档内所蕴含图像和文本的语义和内容。然而,课程领域的图文混合多模态文档中的图像一般由线条和字符构成,在颜色和纹理等视觉特征上表现出较高的稀疏特性;多模态文档中的文本和图像的语义之间表现出局部关联的特点,这使得现有的多模态文档分类模型难以准确地构建出文档中图像和文本的语义特征向量,从而降低了多模态文档特征表达的准确性,阻碍了它们在多模态文档分类任务上的性能。
为了解决以上问题,本发明扩展了模型体系结构,提出了一种基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法。这种方法可以很好的提取到课程领域中的稀疏图像特征,高效构建与图像语义局部细粒度语义关联的文本特征,能够更加准确地学习和特定对象相关的图像和文本特征之间关联关系,从而提高多模态文档分类的性能。
发明内容
要解决的技术问题
课程领域的图文混合多模态文档数据中的图像视觉特征稀疏、文本和图像之间仅存在局部语义关联,这使得现有多模态文档分类模型很难准确地理解文档内文本和图像的语义和内容,这也极大影响了多模态分类的性能。针对上述问题,本发明提出一种基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法,该方法能够更为高效的学习到具有特征稀疏性的课程领域图像的语义特征,并且能够更好的捕获到多模态文档中图像和文本之间的局部细粒度语义关联,准确表达多模态文档特征的同时,提高了计算机在课程领域多模态文档数据分类的性能。
技术方案
一种基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法,其特征在于步骤如下:
步骤1:多模态文档数据的预处理
步骤1.1:每个多模态文档包含一张图像和一段文本描述,并附带多个语义标签;利用文档中的文本描述和文档标签集合构建词典;将出现频次小于13的标签删除,当多模态文档的语义标签数目为0时将该文档删除;
步骤1.2:数据预处理,对于图像数据随机裁剪成长宽为224*224的大小,并进行随机水平翻转;对于文本描述,将所有的文本长度截断和补齐成长度l,并用词向量模型学习文本中词的向量表示;
步骤2:基于注意力机制的深度跨模态特征提取
步骤2.1:采用基于空间和特征注意力机制CBAM的稠密卷积神经网络DenseNet进行图像特征的表示构建,将得到的图像特征记为m代表图像的特征图数;
步骤2.2:采用双向长短期记忆网络BiLSTM和文本注意力机制构建文本特征,其中文本注意力机制由两个卷积层和一个softmax分类器构成;将计算得到的权重记为加权后得文本特征表示记为n=4*hidden_size,hidden_size为BiLSTM隐状态的特征维度;
步骤3:基于注意力机制的分组跨模态融合
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010791032.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:球墨铸铁管预热设备
- 下一篇:一种基于神经网络的干涉仪角度解算方法





