[发明专利]预训练模型的获取方法和装置有效
申请号: | 202110274515.0 | 申请日: | 2021-03-15 |
公开(公告)号: | CN112668671B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 牛国成;李伟;高参;肖欣延;吴华 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/42;G06F40/295 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 模型 获取 方法 装置 | ||
本公开公开了一种预训练模型的获取方法和装置,涉及人工智能技术领域中的自然语言处理和深度学习技术。具体实现方案为:获取训练数据,所述训练数据包括单模语料和多模语料,其中多模语料包括第一模态语料和第二模态语料构成的语料对;利用所述训练数据对预训练模型进行多任务训练,所述多任务包括:至少一个跨模态对比学习任务和至少一个单模学习任务;本公开得到的预训练语言模型可以从不同形式的语料即包括单模语料、多模语料中学习,使得预训练语言模型能够有效地处理各种不同模态的信息。
技术领域
本公开涉及计算机应用技术领域,尤其涉及人工智能技术领域中的自然语言处理和深度学习技术。
背景技术
大规模的预训练模型由于其强大的泛化能力和对规模数据的高效利用而得到了广泛关注。显然现有的预训练方法大多仅用于单模态场景,例如仅仅针对图像,或者仅仅针对文本。
然而,人类通过多种方式感知世界,例如视觉、语言、声音等等。多种模态的信息结合能够更好地进行信息理解,因此一个优秀的人工智能系统应该能够有效地处理各种不同模态的信息。
发明内容
本公开提供了一种跨模态的预训练模型的获取方法、装置、设备、计算机存储介质和程序产品。
根据本公开的第一方面,提供了一种预训练模型的获取方法,包括:
获取训练数据,所述训练数据包括单模语料和多模语料,其中多模语料包括第一模态语料和第二模态语料构成的语料对;
利用所述训练数据对预训练模型进行多任务训练,所述多任务包括:至少一个跨模态对比学习任务和至少一个单模学习任务;
其中所述跨模态对比学习任务包括:利用所述预训练模型对多模语料中第一模态语料的向量表示和第二模态语料的向量表示,确定所述多模语料中第一模态语料和第二模态语料之间的相似度;训练目标为最大化正例多模语料中第一模态语料和第二模态语料之间的相似度,最小化负例多模语料中第一模态语料和第二模态语料之间的相似度;
所述单模学习任务包括:利用所述预训练模型对单模语料中第一部分内容的向量表示,预测该单模语料中第二部分内容;训练目标为最小化预测得到的第二部分内容与该单模语料中第二部分内容的差异。
根据本公开的第二方面,提供了一种预训练模型的获取装置,包括:
获取单元,用于获取训练数据,所述训练数据包括单模语料和多模语料,其中多模语料包括第一模态语料和第二模态语料构成的语料对;
训练单元,用于利用所述训练数据对预训练模型进行多任务训练,所述多任务包括:至少一个跨模态对比学习任务和至少一个单模学习任务;
其中所述跨模态对比学习任务包括:利用所述预训练模型对多模语料中第一模态语料的向量表示和第二模态语料的向量表示,确定所述多模语料中第一模态语料和第二模态语料之间的相似度;训练目标为最大化正例多模语料中第一模态语料和第二模态语料之间的相似度,最小化负例多模语料中第一模态语料和第二模态语料之间的相似度;
所述单模学习任务包括:利用所述预训练模型对单模语料中第一部分内容的向量表示,预测该单模语料中第二部分内容;训练目标为最小化预测得到的第二部分内容与该单模语料中第二部分内容的差异。
根据本公开的第三方面,本公开提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110274515.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:手术室护工任务分派方法、装置及服务器
- 下一篇:手机后盖玻璃视觉检测设备