[发明专利]跨模态处理方法、装置、电子设备和计算机存储介质在审

申请号：	202010238730.0	申请日：	2020-03-30
公开（公告）号：	CN111461203A	公开（公告）日：	2020-07-28
发明（设计）人：	牛国成;何伯磊;肖欣延	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/34;G06K9/20;G06K9/32;G06K9/46;G06F40/30;G06N3/04;G06N3/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	石茵汀
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	跨模态处理方法装置电子设备计算机存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了跨模态处理方法、装置、电子设备和计算机存储介质，涉及自然语言处理技术领域。具体实现方案为：获取样本集，样本集包括多个语料和多个图像，根据样本集，生成多个训练样本，每一个训练样本是至少一个语料与对应的至少一个图像的组合，采用多个训练样本，对语义模型进行训练，以使语义模型学习得到语料与图像组合的语义向量，采用经过训练的语义模型，进行语料和图像之间的跨模态处理，通过将语料和对应的图像的组合进行训练，使得语义模型学习到了语料和对应的图像之间的语义关联，提高了语义模型的训练效果，解决了现有技术中，多模态处理时，针对每一种模态单独训练，隔离了不同模态间的语义关联，使得训练得到的模型效果较差。

技术领域

本申请涉及计算机技术领域，尤其涉及自然语言处理技术领域，具体涉及一种跨模态处理方法、装置、电子设备和计算机存储介质。

背景技术

我们生活的世界是一个多模态的世界，文字、视觉等不同模态的内容充斥着我们的生活。随着人工智能技术的快速发展，基于多模态处理，例如视觉-语言的多模态处理的需求和要求越来越高。

然而，目前的多模态处理方法在进行模型训练时，无法捕捉到足够的语义信息，同时，也没有建立文本和视觉两种模态之间的语义关联，使得模型的训练效果不佳。

发明内容

提供了一种用于跨模态处理方法、装置、电子设备和计算机存储介质。

根据第一方面，提供了一种跨模态处理方法，通过对训练语料和对应的图像的组合进行训练，使得语义模型学习到了语料和对应的图像之间的语义关联，提高了进行跨模态处理的语义模型的训练效果。

本申请的第二方面提出一种跨模态处理装置。

本申请的第三方面提出一种电子设备。

本申请的第四方面提出一种存储有计算机指令的非瞬时计算机可读存储介质。

本申请第一方面实施例提出了一种跨模态处理方法，包括：