[发明专利]一种基于BERT模型及文本-图像关系传播的多模态命名实体识别方法在审
申请号: | 202011642129.4 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112733533A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 孙霖;王跻权;翁芳胜;孙宇轩;郑增威 | 申请(专利权)人: | 浙大城市学院 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06K9/46;G06K9/62;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 张羽振 |
地址: | 310015 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 模型 文本 图像 关系 传播 多模态 命名 实体 识别 方法 | ||
本发明涉及一种基于BERT模型及文本‑图像关系传播的多模态命名实体识别方法,包括:步骤1、设计RpBERT,RpBERT为基于文本‑图像关系传播的多模态命名实体识别的BERT模型;步骤2、通过不同的概率门G,进行关系传播;关系传播包括软关系传播和硬关系传播的两种门控传播;步骤2.1、软关系传播:将概率门G的输出视为连续分布,根据文本‑图像关系的强弱对视觉特征进行过滤;步骤2.2、硬关系传播;步骤3、采用多任务学习方式为多模态命名实体识别训练RpBERT。本发明的有益效果是:本发明在实验中深入分析了使用关系传播前后视觉注意的变化。并在多模态命名实体识别的数据集上达到了可达到的最先进的性能。
技术领域
本发明属于社交推文的多模态命名实体识别领域,主要涉及在多模态BERT模型中引入了一种文本-图像关系传播的方法,并提出一种多任务算法来训练和验证关系传播对多模态命名实体识别数据集的影响。
背景技术
近年来,社交媒体帖子的多模态命名实体识别受到了关注。Moon等人于2018年在In Proceedings of the 2018Conference of the North American Chapter of theAssociation for Computational Linguistics学术会议上发表的论文《MultimodalNamed Entity Recognition for Short Social Media Posts》中提出了一个模态注意力模块。该模块计算了单词嵌入、字符嵌入和视觉特征的加权模态组合。Lu等人在InProceedings of the 56th Annual Meeting of the Association for ComputationalLinguistic会议上发表论文《Visual attention model for name tagging inmultimodal social media》中提出了一种用视觉注意模型来寻找与文本内容相关的图像区域。通过文本查询向量和区域视觉表征之和的线性投影计算图像区域的注意权重。提取的视觉上下文特征被合并到biLSTM模型的字级输出中。Zhang等人(2018)在In Thirty-Second AAAI Conference on Artificial Intelligence会议上表的论文《Adaptivecoattention network for named entity recognition in tweets》设计了一个自适应共同注意网络(ACN)层,该层位于LSTM和CRF层之间。ACN包含一个门控多模态融合模块,用于学习视觉和语言特征的融合向量;设计了一个过滤门来判断融合特征是否有助于提高每个令牌的标注精度,过滤门的输出分数由sigmoid激活函数计算。Arshad等人在In2019International Conference on Document Analysis and Recognition会议上发表的论文《Aiding Intra-Text Representations with Visual Context for MultimodalNamed Entity Recognition》也提出了每个分词的门控多模态融合表示,门控融合是视觉注意特征和词嵌入对齐特征的加权和。视觉注意特征由VGG-19(VGG-19是由Simonyan和Zisserman在2014发表的论文《Very deep convolutional networks for large-scaleimage recognition》中提出的模型)视觉特征的加权和计算得出,权重是单词查询和图像特征之间的附加注意分数;当视觉线索与文本相关时,图像的整体注意力就不能被提取出来。图2(b)展示了失败的例子,其中不相关的图像提供了误导性的视觉注意并产生了预测误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙大城市学院,未经浙大城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011642129.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种外带加固片的油冷器管
- 下一篇:一种多重密封轨道结构球阀