[发明专利]面向多任务的预训练语言模型自动压缩方法及平台有效
| 申请号: | 202011470331.3 | 申请日: | 2020-12-15 |
| 公开(公告)号: | CN112232511B | 公开(公告)日: | 2021-03-30 |
| 发明(设计)人: | 王宏升;胡胜健;傅家庆;杨非 | 申请(专利权)人: | 之江实验室 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N5/04 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
| 地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 任务 训练 语言 模型 自动 压缩 方法 平台 | ||
1.一种面向多任务的预训练语言模型自动压缩方法的平台,其特征在于,包括以下组件:
数据加载组件:用于获取面向多任务的预训练语言模型的训练样本,所述训练样本是满足监督学习任务的有标签的文本样本;
自动压缩组件:用于将面向多任务的预训练语言模型自动压缩,包括知识蒸馏向量编码模块、蒸馏网络生成模块、结构生成器和蒸馏网络联合训练模块、蒸馏网络搜索模块和特定任务微调模块;
知识蒸馏向量编码模块包括Transformer的层采样向量;前向传播过程中,将知识蒸馏编码向量输入结构生成器,生成对应结构的蒸馏网络和结构生成器的权重矩阵;
蒸馏网络生成模块是基于结构生成器构建与当前输入的知识蒸馏编码向量对应的蒸馏网络,调整结构生成器输出的权重矩阵的形状,使其与知识蒸馏编码向量对应的蒸馏结构的输入输出的编码器单元数目一致;
结构生成器和蒸馏网络联合训练模块是端到端的训练结构生成器,具体地,将基于Transformer层采样的知识蒸馏编码向量和一个小批次的训练数据输入蒸馏网络;更新蒸馏结构的权重和结构生成器的权重矩阵;
蒸馏网络搜索模块是为了搜索出满足特定约束条件的最高精度的蒸馏网络,提出进化算法搜索满足特定约束条件的最高精度的蒸馏网络;将知识蒸馏编码向量输入训练好的结构生成器,生成对应蒸馏网络的权重,在验证集上对蒸馏网络进行评估,获得对应蒸馏网络的精度;在元学习蒸馏网络中采用的进化搜索算法中,每个蒸馏网络是由包含基于Transformer层采样的知识蒸馏编码向量生成,所以将知识蒸馏编码向量定义为蒸馏网络的基因;在满足特定约束条件下,首先选取一系列知识蒸馏编码向量作为蒸馏网络的基因,通过在验证集上评估获得对应蒸馏网络的精度;然后,选取精度较高的前k个基因,采用基因重组和变异生成新的基因;通过进一步重复前k个最优基因选择的过程和新基因生成的过程进行迭代,获得满足约束条件并且精度最高的基因;
特定任务微调模块是在所述自动压缩组件生成的预训练模型蒸馏网络上构建下游任务网络,利用蒸馏网络的特征层和输出层对下游任务场景进行微调,输出最终微调好的学生模型,即登陆用户需求的包含下游任务的预训练语言模型压缩模型;将所述压缩模型输出到指定的容器,可供所述登陆用户下载,并在所述平台的输出压缩模型的页面呈现压缩前后模型大小的对比信息;
推理组件:登陆用户从所述平台获取预训练压缩模型,用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理;并在所述平台的压缩模型推理页面呈现压缩前后推理速度的对比信息;
所述面向多任务的预训练语言模型自动压缩方法,包括三个阶段:
第一阶段,构建基于Transformer层采样的知识蒸馏编码向量:采用伯努利分布对BERT模型的所有Transformer单元进行层采样,生成知识蒸馏编码向量;
第二阶段,训练元学习的知识蒸馏网络:定义搜索空间,将第一阶段构建的知识蒸馏编码向量输入该搜索空间,剔除不符合条件的知识蒸馏编码向量;定义结构生成器,将经过筛选的知识蒸馏编码向量作为输入,输出用于构建蒸馏结构模型的权重矩阵,并生成对应的蒸馏结构模型,其输入为文本数据;采用文本数据集训练生成的蒸馏结构模型从而更新结构生成器;
第三阶段,基于进化算法的蒸馏结构模型搜索的过程:将多个满足特定约束的知识蒸馏编码向量输入第二阶段更新后的结构生成器生成对应的权重矩阵,得到多个蒸馏结构模型;评估每个蒸馏结构模型的精度;采用进化算法搜索其中满足特定约束的精度最高的蒸馏结构模型,得到通用压缩架构。
2.如权利要求1所述面向多任务的预训练语言模型自动压缩方法的平台,其特征在于,所述第一阶段具体为:依次对BERT模型的12层Transformer单元进行伯努利采样生成知识蒸馏编码向量,每一层对应一个随机变量;当随机变量为1的概率大于等于0.5时,知识蒸馏编码向量对应的元素为1,代表当前Transformer单元进行迁移学习;当随机变量为1的概率值小于0.5时,层采样向量对应的元素为0,代表当前Transformer单元不进行迁移学习。
3.如权利要求2所述面向多任务的预训练语言模型自动压缩方法的平台,其特征在于,所述定义搜索空间具体为:知识蒸馏编码向量中元素为1的数量不少于6。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011470331.3/1.html,转载请声明来源钻瓜专利网。





