[发明专利]一种视觉语言训练模型的处理方法、装置及电子设备在审

申请号：	202011432728.3	申请日：	2020-12-09
公开（公告）号：	CN114610904A	公开（公告）日：	2022-06-10
发明（设计）人：	桂敏	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/38	分类号：	G06F16/38;G06F16/583;G06F40/289;G06N3/02;G06N3/08
代理公司：	北京博雅睿泉专利代理事务所(特殊普通合伙) 11442	代理人：	钱雪晴
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视觉语言训练模型处理方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种视觉语言训练模型的处理方法、装置及电子设备，该方法包括：获取训练样本，其中，训练样本包括训练图像和用于描述训练图像的训练文本；将所述训练文本以短语为单位进行拆分，并从拆分后的训练文本中选择被遮盖的短语；在所述训练图像中选择被遮盖的第一区域，以及与所述第一区域相邻的第二区域；根据所述被遮盖的短语、遮盖后的训练文本、所述训练图像、所述第一区域和所述第二区域，进行视觉语言训练模型的训练。

技术领域

本公开涉及模型处理技术领域，更具体地，涉及一种视觉语言训练模型的处理方法、一种视觉语言训练模型的处理装置、一种电子设备、及一种计算机可读存储介质。

背景技术

预训练模型在大规模数据集上训练好之后，下游任务仅需要少量标注数据甚至不需要任何标注数据就可以取得不错的效果，当前不管是学术界还是工业界对预训练模型的关注度都很高。

在视觉语言训练模型上处理文本部分会参照bert模型随机遮盖掉某个词，图像部分遮盖掉某个区域，使用的是image caption(看图说话)数据集。

看图说话(image caption)是结合CV(Computer Vision，计算机视觉)和NLP(Neuro-Linguistic Programming，神经语言程序学)领域的一个比较综合的任务，输入是一幅图像，输出是对该幅图像进行描述的一段文字。这项任务要求模型可以识别图片中物体、理解物体之间的关系，并用一句自然语言表达出来。

对于某个图像区域可能会对应多个词，但是在对文本中的词进行遮盖的过程中，可能会割裂一些强相关的字词。在割裂一些强相关的字词进行遮盖的文本对视觉语言训练模型进行训练，可能会导致视觉语言训练模型的效果较差。

在对视觉语言训练模型进行训练的过程中，图像中的其他区域可能会对被遮盖区域产生干扰，也可能会导致视觉语言训练模型的效果较差。

发明内容

本公开的一个目的是提供一种处理视觉语言训练模型的新的技术方案。

根据本公开的第一方面，提供了一种视觉语言训练模型的处理方法，包括：

获取训练样本，其中，所述训练样本包括训练图像和用于描述所述训练图像的训练文本；

将所述训练文本以短语为单位进行拆分，并从拆分后的训练文本中选择被遮盖的短语；在所述训练图像中选择被遮盖的第一区域，以及与所述第一区域相邻的第二区域；

根据所述被遮盖的短语、遮盖后的训练文本、所述训练图像、所述第一区域和所述第二区域，进行视觉语言训练模型的训练。

可选的，所述将所述训练文本以短语为单位进行拆分包括：

构造所述训练文本的短语结构树；其中，所述短语结构树用于描述所述训练文本的句法结构；

根据所述短语结构树拆分所述训练文本。

可选的，所述从拆分后的训练文本中选择被遮盖的短语包括：