[发明专利]模型训练方法、装置、设备和计算机存储介质在审
申请号: | 202110735676.5 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113408638A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 赵晏彬;丁思宇;王硕寰;刘占一;孙宇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 设备 计算机 存储 介质 | ||
1.一种模型训练方法,包括:
获取已训练得到的第一模型;
利用所述第一模型的参数对第二模型的参数进行初始化;
利用预设的训练目标,对所述第二模型进行训练以迭代更新所述第二模型的参数;
其中,所述第二模型的规模大于所述第一模型,且所述第一模型和第二模型的类型相同。
2.根据权利要求1所述的方法,其中,利用所述第一模型的参数对第二模型的参数进行初始化包括:
将所述第一模型的参数值作为所述第二模型的第一部分参数的初始值;
对所述第二模型剩余的第二部分参数按照预设的策略进行填充。
3.根据权利要求2所述的方法,其中,将所述第一模型的参数值作为所述第二模型的第一部分参数的初始值包括:
从第二模型的最低网络层和最低维度开始,依次对应填充第一模型的参数值;或者,
将第一模型中的参数按照相同网络层类型的对应关系填充至第二模型中的对应参数位置。
4.根据权利要求2所述的方法,其中,对所述第二模型剩余的第二部分参数按照预设的策略进行填充包括以下方式中的至少一种:
方式一、对所述第二部分参数采用随机数进行填充;
方式二、将所述第一部分参数的初始值复制至第二部分参数中相同层级其他维度的位置,将所述第二部分参数中剩余的位置填充为零;
方式三、将所述第一部分参数的初始值复制至第二部分参数中相同维度其他层级的位置,将所述第二部分参数中剩余的位置采用随机数进行填充;
方式四、将所述第一部分参数的初始值复制至第二部分参数中相同维度其他层级的位置后,将所述第二模型中已具备初始值的参数对应复制至所述第二部分参数中相同层级的剩余位置并对该剩余位置的参数值添加随机噪声。
5.根据权利要求4所述的方法,其中,若所述第二模型的参数维度不是所述第一模型的整数倍,则采用所述方式一、方式三或方式四;
若所述第二模型的期望训练时间小于或等于预设时间阈值,则采用所述方式二。
6.根据权利要求1至5中任一项所述的方法,其中,所述第一模型和第二模型均为预训练语言模型。
7.一种模型训练装置,包括:
模型获取单元,用于获取已训练得到的第一模型;
初始化单元,用于利用所述第一模型的参数对第二模型的参数进行初始化;
模型训练单元,用于利用预设的训练目标,对所述第二模型进行训练以迭代更新所述第二模型的参数;
其中,所述第二模型的规模大于所述第一模型,且所述第一模型和第二模型的类型相同。
8.根据权利要求7所述的装置,其中,所述初始化单元,具体用于将所述第一模型的参数值作为所述第二模型的第一部分参数的初始值;对所述第二模型剩余的第二部分参数按照预设的策略进行填充。
9.根据权利要求8所述的装置,其中,所述初始化单元在将所述第一模型的参数值作为所述第二模型的第一部分参数的初始值时,具体用于:
从第二模型的最低网络层和最低维度开始,依次对应填充第一模型的参数值;或者,
将第一模型中的参数按照相同网络层类型的对应关系填充至第二模型中的对应参数位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110735676.5/1.html,转载请声明来源钻瓜专利网。