[发明专利]一种视觉语言训练模型的处理方法、装置及电子设备在审
申请号: | 202011432728.3 | 申请日: | 2020-12-09 |
公开(公告)号: | CN114610904A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 桂敏 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/38 | 分类号: | G06F16/38;G06F16/583;G06F40/289;G06N3/02;G06N3/08 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 | 代理人: | 钱雪晴 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视觉 语言 训练 模型 处理 方法 装置 电子设备 | ||
本公开提供了一种视觉语言训练模型的处理方法、装置及电子设备,该方法包括:获取训练样本,其中,训练样本包括训练图像和用于描述训练图像的训练文本;将所述训练文本以短语为单位进行拆分,并从拆分后的训练文本中选择被遮盖的短语;在所述训练图像中选择被遮盖的第一区域,以及与所述第一区域相邻的第二区域;根据所述被遮盖的短语、遮盖后的训练文本、所述训练图像、所述第一区域和所述第二区域,进行视觉语言训练模型的训练。
技术领域
本公开涉及模型处理技术领域,更具体地,涉及一种视觉语言训练模型的处理方法、一种视觉语言训练模型的处理装置、一种电子设备、及一种计算机可读存储介质。
背景技术
预训练模型在大规模数据集上训练好之后,下游任务仅需要少量标注数据甚至不需要任何标注数据就可以取得不错的效果,当前不管是学术界还是工业界对预训练模型的关注度都很高。
在视觉语言训练模型上处理文本部分会参照bert模型随机遮盖掉某个词,图像部分遮盖掉某个区域,使用的是image caption(看图说话)数据集。
看图说话(image caption)是结合CV(Computer Vision,计算机视觉)和NLP(Neuro-Linguistic Programming,神经语言程序学)领域的一个比较综合的任务,输入是一幅图像,输出是对该幅图像进行描述的一段文字。这项任务要求模型可以识别图片中物体、理解物体之间的关系,并用一句自然语言表达出来。
对于某个图像区域可能会对应多个词,但是在对文本中的词进行遮盖的过程中,可能会割裂一些强相关的字词。在割裂一些强相关的字词进行遮盖的文本对视觉语言训练模型进行训练,可能会导致视觉语言训练模型的效果较差。
在对视觉语言训练模型进行训练的过程中,图像中的其他区域可能会对被遮盖区域产生干扰,也可能会导致视觉语言训练模型的效果较差。
发明内容
本公开的一个目的是提供一种处理视觉语言训练模型的新的技术方案。
根据本公开的第一方面,提供了一种视觉语言训练模型的处理方法,包括:
获取训练样本,其中,所述训练样本包括训练图像和用于描述所述训练图像的训练文本;
将所述训练文本以短语为单位进行拆分,并从拆分后的训练文本中选择被遮盖的短语;在所述训练图像中选择被遮盖的第一区域,以及与所述第一区域相邻的第二区域;
根据所述被遮盖的短语、遮盖后的训练文本、所述训练图像、所述第一区域和所述第二区域,进行视觉语言训练模型的训练。
可选的,所述将所述训练文本以短语为单位进行拆分包括:
构造所述训练文本的短语结构树;其中,所述短语结构树用于描述所述训练文本的句法结构;
根据所述短语结构树拆分所述训练文本。
可选的,所述从拆分后的训练文本中选择被遮盖的短语包括:
遍历以短语为单位的拆分后的训练文本,生成对应每一短语的随机数;
选取随机数在设定范围内的短语作为所述被遮盖的短语。
可选的,所述根据所述被遮盖的短语、遮盖后的训练文本、所述训练图像、所述第一区域和所述第二区域,进行视觉语言训练模型的训练包括:
根据所述被遮盖的短语、所述遮盖后的训练文本和所述训练图像,进行所述视觉语言训练模型的第一训练任务;
根据所述训练图像、所述第一区域和所述第二区域,进行所述视觉语言训练模型的第二训练任务。
可选的,所述根据所述被遮盖的短语、所述遮盖后的训练文本和所述训练图像,进行所述视觉语言训练模型的第一训练任务包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011432728.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可数字化液压智控系统及挖掘机
- 下一篇:双人伞