[发明专利]跨模态处理方法、装置、电子设备和计算机存储介质在审
| 申请号: | 202010238730.0 | 申请日: | 2020-03-30 |
| 公开(公告)号: | CN111461203A | 公开(公告)日: | 2020-07-28 |
| 发明(设计)人: | 牛国成;何伯磊;肖欣延 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/34;G06K9/20;G06K9/32;G06K9/46;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 跨模态 处理 方法 装置 电子设备 计算机 存储 介质 | ||
本申请公开了跨模态处理方法、装置、电子设备和计算机存储介质,涉及自然语言处理技术领域。具体实现方案为:获取样本集,样本集包括多个语料和多个图像,根据样本集,生成多个训练样本,每一个训练样本是至少一个语料与对应的至少一个图像的组合,采用多个训练样本,对语义模型进行训练,以使语义模型学习得到语料与图像组合的语义向量,采用经过训练的语义模型,进行语料和图像之间的跨模态处理,通过将语料和对应的图像的组合进行训练,使得语义模型学习到了语料和对应的图像之间的语义关联,提高了语义模型的训练效果,解决了现有技术中,多模态处理时,针对每一种模态单独训练,隔离了不同模态间的语义关联,使得训练得到的模型效果较差。
技术领域
本申请涉及计算机技术领域,尤其涉及自然语言处理技术领域,具体涉及一种跨模态处理方法、装置、电子设备和计算机存储介质。
背景技术
我们生活的世界是一个多模态的世界,文字、视觉等不同模态的内容充斥着我们的生活。随着人工智能技术的快速发展,基于多模态处理,例如视觉-语言的多模态处理的需求和要求越来越高。
然而,目前的多模态处理方法在进行模型训练时,无法捕捉到足够的语义信息,同时,也没有建立文本和视觉两种模态之间的语义关联,使得模型的训练效果不佳。
发明内容
提供了一种用于跨模态处理方法、装置、电子设备和计算机存储介质。
根据第一方面,提供了一种跨模态处理方法,通过对训练语料和对应的图像的组合进行训练,使得语义模型学习到了语料和对应的图像之间的语义关联,提高了进行跨模态处理的语义模型的训练效果。
本申请的第二方面提出一种跨模态处理装置。
本申请的第三方面提出一种电子设备。
本申请的第四方面提出一种存储有计算机指令的非瞬时计算机可读存储介质。
本申请第一方面实施例提出了一种跨模态处理方法,包括:
获取样本集;其中,所述样本集包括多个语料,以及多个图像;
根据所述样本集,生成多个训练样本;其中,每一个所述训练样本,是至少一个所述语料与对应的至少一个所述图像的组合;
采用所述多个训练样本,对语义模型进行训练,以使所述语义模型学习得到语料与图像组合的语义向量;
采用经过训练的语义模型,进行语料和图像之间的跨模态处理。
本申请第二方面实施例提出了一种跨模态处理装置,包括:
获取模块,用于获取样本集;其中,所述样本集包括多个语料,以及多个图像;
生成模块,用于根据所述样本集,生成多个训练样本;其中,每一个所述训练样本,是至少一个所述语料与对应的至少一个所述图像的组合;
训练模块,用于采用所述多个训练样本,对语义模型进行训练,以使所述语义模型学习得到语料与图像组合的语义向量;
处理模块,用于采用经过训练的语义模型,进行语料和图像之间的跨模态处理。
本申请第三方面实施例提出了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一所述的跨模态处理方法。
本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如第一方面所述的跨模态处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010238730.0/2.html,转载请声明来源钻瓜专利网。





