[发明专利]一种视觉语言训练模型的处理方法、装置及电子设备在审

申请号：	202011432728.3	申请日：	2020-12-09
公开（公告）号：	CN114610904A	公开（公告）日：	2022-06-10
发明（设计）人：	桂敏	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/38	分类号：	G06F16/38;G06F16/583;G06F40/289;G06N3/02;G06N3/08
代理公司：	北京博雅睿泉专利代理事务所(特殊普通合伙) 11442	代理人：	钱雪晴
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视觉语言训练模型处理方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种视觉语言训练模型的处理方法，包括：

获取训练样本，其中，所述训练样本包括训练图像和用于描述所述训练图像的训练文本；

将所述训练文本以短语为单位进行拆分，并从拆分后的训练文本中选择被遮盖的短语；在所述训练图像中选择被遮盖的第一区域，以及与所述第一区域相邻的第二区域；

根据所述被遮盖的短语、遮盖后的训练文本、所述训练图像、所述第一区域和所述第二区域，进行视觉语言训练模型的训练。

2.根据权利要求1所述的方法，所述将所述训练文本以短语为单位进行拆分包括：

构造所述训练文本的短语结构树；其中，所述短语结构树用于描述所述训练文本的句法结构；

根据所述短语结构树拆分所述训练文本。

3.根据权利要求1所述的方法，所述从拆分后的训练文本中选择被遮盖的短语包括：

遍历以短语为单位的拆分后的训练文本，生成对应每一短语的随机数；

选取随机数在设定范围内的短语作为所述被遮盖的短语。

4.根据权利要求1所述的方法，所述根据所述被遮盖的短语、遮盖后的训练文本、所述训练图像、所述第一区域和所述第二区域，进行视觉语言训练模型的训练包括：

根据所述被遮盖的短语、所述遮盖后的训练文本和所述训练图像，进行所述视觉语言训练模型的第一训练任务；

根据所述训练图像、所述第一区域和所述第二区域，进行所述视觉语言训练模型的第二训练任务。

5.根据权利要求4所述的方法，所述根据所述被遮盖的短语、所述遮盖后的训练文本和所述训练图像，进行所述视觉语言训练模型的第一训练任务包括：

获取每一短语在所述训练文本中的语序和预设的用于表示所述被遮盖的短语的遮盖向量；

根据预设的神经网络，对每一短语的语序、未遮盖的短语和所述训练图像进行编码，分别得到语序向量、未遮盖短语向量和训练图像向量；

以所述视觉语言训练模型的待定参数为变量，获取根据所述遮盖向量、所述语序向量、所述未遮盖短语向量和所述训练图像向量预测每一被遮盖的短语的准确率；

根据所述被遮盖的短语的准确率，求解所述待定参数。

6.根据权利要求4所述的方法，所述根据所述训练图像、所述第一区域和所述第二区域，进行所述视觉语言训练模型的第二训练任务包括：

根据预设的神经网络，对所述训练图像、所述第一区域和所述第二区域分别进行编码，得到训练图像向量、第一区域向量和第二区域向量；

基于经过所述第一训练任务所得到的所述视觉语言训练模型的待定参数的取值，以所述待定参数为变量，根据所述训练图像向量和所述第二区域向量，预测所述第一区域的预测区域向量；

根据所述预测区域向量和所述第一区域向量，求解所述待定参数。

7.根据权利要求6所述的方法，所述根据所述预测区域向量和所述第一区域向量，求解所述待定参数包括：

计算所述预测区域向量和所述第一区域向量之间的距离；

求解在所述距离最小时所述待定参数的值。

8.根据权利要求6所述的方法，所述根据所述预测区域向量和所述第一区域向量，求解所述待定参数包括：

求解在所述预测区域向量和所述第一区域向量属于预设的同一分类时，所述待定参数的值。

9.根据权利要求1所述的方法，所述进行视觉语言训练模型的训练之后，所述方法还包括：

获取待处理的图文信息；其中，所述图文信息包括图像和/或文本；

利用所述视觉语言训练模型对所述待处理的图文信息进行处理，得到对应的处理结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011432728.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载