[发明专利]视觉文本预训练模型的训练方法、装置、介质和设备在审
| 申请号: | 202210612980.5 | 申请日: | 2022-05-31 |
| 公开(公告)号: | CN115131638A | 公开(公告)日: | 2022-09-30 |
| 发明(设计)人: | 郑茂;袁宇辰;柴子峰;蒋树强;黎向阳;朱永清;杨嘉豪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/74;G06V10/82;G06V10/764;G06V20/62;G06K9/62;G06N3/08 |
| 代理公司: | 北京励诚知识产权代理有限公司 11647 | 代理人: | 熊金凤 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视觉 文本 训练 模型 方法 装置 介质 设备 | ||
本申请提供了一种视觉文本预训练模型的训练方法、装置、介质和设备,可应用于人工智能、计算机视觉、智慧交通等场景,该方法包括:根据视频文本样本对进行特征提取得到初始视频特征和初始文本特征;根据初始视频特征和初始文本特征进行特征融合得到融合特征;根据融合特征和预设的多个中间特征确定桥接特征;根据初始视频特征、初始文本特征、桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征,预设的掩码矩阵用于使初始视频特征和初始文本特征相互掩模;根据初始视频特征、初始文本特征、桥接特征、目标视频特征以及目标文本特征确定目标函数,并根据目标函数对进行模型训练,以学习多模态交互信息、且保持多模态之间的模态分离性。
技术领域
本发明涉及信息处理技术领域,更具体地,涉及一种视觉文本预训练模型的训练方法、装置、介质和设备。
背景技术
随着大规模视频文本数据集的迅速发展和计算能力的增强,视频文本预训练,因其可迁移性广且在众多下游任务上的性能显著而备受关注。
然而,目前的视频文本预训练技术,在一种情况中,缺少跨模态信息的交互;在另一种情况中,最终得到的跨模态表示缺乏对原模态的区分。
发明内容
本申请实施例提供了一种视觉文本预训练模型的训练方法、装置、介质和设备,可以在保证视觉文本预训练模型对各模态信息的融合表示能力的同时,保持各模态信息的分离性。
一方面,本申请实施例提供了一种视觉文本预训练模型的训练方法,所述训练方法包括:
获取成对标注的视频文本样本对,并对所述视频文本样本对进行特征提取,得到所述视频文本样本对中视频样本的初始视频特征、以及所述视频文本样本对中文本样本的初始文本特征;
根据所述初始视频特征以及所述初始文本特征进行特征融合,得到第一融合特征;
根据所述第一融合特征和预设的多个中间特征确定桥接特征;
根据所述初始视频特征、所述初始文本特征、所述桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征,其中,所述预设的掩码矩阵用于使所述初始视频特征和所述初始文本特征相互掩模;
根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数;
根据所述目标函数对所述视觉文本预训练模型进行训练,以使训练后的视觉文本预训练模型用于学习所述视频文本样本对的所述初始视频特征与所述初始文本特征之间的细粒度交互信息、且所述初始视频特征与所述初始文本特征之间保持模态分离性。
另一方面,本申请实施例提供了一种视觉文本预训练模型的训练装置,包括:
提取模块,用于获取成对标注的视频文本样本对,并对所述视频文本样本对进行特征提取,得到所述视频文本样本对中视频样本的初始视频特征、以及所述视频文本样本对中文本样本的初始文本特征;
融合模块,用于根据所述初始视频特征以及所述初始文本特征进行特征融合,得到第一融合特征;
第一确定模块,用于根据所述第一融合特征和预设的多个中间特征确定桥接特征;
第二确定模块,用于根据所述初始视频特征、所述初始文本特征、所述桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征,其中,所述预设的掩码矩阵用于使所述初始视频特征和所述初始文本特征相互掩模;
第三确定模块,用于根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数;
训练模块,用于根据所述目标函数对所述视觉文本预训练模型进行训练,以使训练后的视觉文本预训练模型用于学习所述视频文本样本对的所述初始视频特征与所述初始文本特征之间的细粒度交互信息、且所述初始视频特征与所述初始文本特征之间保持模态分离性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210612980.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种内侧半月板体外撑开器
- 下一篇:质子交换膜燃料电池阴极水管理系统





