[发明专利]基于知识蒸馏的预训练模型集成加速方法及装置有效
| 申请号: | 201911134079.6 | 申请日: | 2019-11-19 |
| 公开(公告)号: | CN110852426B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 宋子文晗;江岭 | 申请(专利权)人: | 成都晓多科技有限公司 |
| 主分类号: | G06N3/0455 | 分类号: | G06N3/0455;G06N3/0442;G06N3/0464;G06N3/08;G06F18/2415;G06N5/025 |
| 代理公司: | 成都睿道专利代理事务所(普通合伙) 51217 | 代理人: | 李红 |
| 地址: | 610000 四川省成都市天府新区华*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 知识 蒸馏 训练 模型 集成 加速 方法 装置 | ||
1.基于知识蒸馏的预训练模型集成加速方法,其特征在于,包括:
定义教师模型集团,教师模型集团定义学生模型;
将已标注分类标签的客户咨询文本训练数据分别输入到教师模型集团和学生模型训练,学生模型输出似然估计概率值;教师模型集团输出每个教师模型对应的似然估计概率值;
所述教师模型集团包括多个教师模型,教师模型包括长短期记忆网络特征提取器、第一卷积网络特征提取器、第一线性特征编码器和第一分类器,长短期记忆网络特征提取器为时序逻辑的计算网络,用于提取文本的上下文关系特征;所述教师模型获取分类概率的方法如下:将客户问题的字词向量在教师模型中首先经过长短期记忆网络特征提取器获得上下文特征信息,再经过卷积提取文本的局部特征、字和字组成词语的关系特征,所述局部特征与关系特征经第一线性特征编码器编码后由第一分类器进行判别,得到输入的客户问题对应每个分类的概率;
所述学生模型包括第二卷积网络特征提取器、第二线性特征编码器和第二分类器,所述学生模型获取分类概率的方法如下:对客户问题的字词向量进行卷积提取文本的局部特征、字和字组成词语的关系特征,所述局部特征与关系特征经第二线性特征编码器编码后由第二分类器进行判别,得到输入的客户问题对应每个分类的概率;
对教师模型集团输出的似然估计概率值进行池化操作,输出池化后的似然估计概率值;
衡量教师模型集团经过池化后的似然估计概率值与学生模型似然估计概率值间的差异值;
对学生模型的参数进行更新,使得学生模型似然估计概率值向教师模型集团经过池化后的似然估计概率值迭代,最终得到似然估计概率值最接近教师模型集团池化后的似然估计概率值的学生模型;
将得到的学生模型的特征提取器和特征编码器作为学生预训练模型;
学生预训练模型预测待训练的客户咨询文本数据,编码成客户咨询文本数据特征向量。
2.根据权利要求1所述的基于知识蒸馏的预训练模型集成加速方法,其特征在于:所述的教师模型集团包括多个教师模型,每个所述的教师模型均包括第一特征提取器、第一特征编码器和第一分类器。
3.根据权利要求2所述的基于知识蒸馏的预训练模型集成加速方法,其特征在于:所述的第一特征提取器包括卷积网络特征提取器和长短期记忆网络特征提取器与卷积网络特征提取器的结合。
4.根据权利要求1所述的基于知识蒸馏的预训练模型集成加速方法,其特征在于:所述的池化操作包括求平均操作和加权求平均操作;所述的求平均操作包括:对教师模型集团输出的每个教师模型对应的似然估计概率值求平均;所述的加权求平均操作包括:对教师模型集团输出的每个教师模型对应的似然估计概率值进行加权后求平均。
5.根据权利要求1所述的基于知识蒸馏的预训练模型集成加速方法,其特征在于:所述的学生模型包括第二特征提取器、第二特征编码器和第二分类器。
6.根据权利要求1所述的基于知识蒸馏的预训练模型集成加速方法,其特征在于:所述的衡量教师模型集团经过池化后的似然估计概率值与学生模型似然估计概率值间的差异采用交叉熵cross entropy损失函数或KL散度。
7.根据权利要求1所述的基于知识蒸馏的预训练模型集成加速方法,其特征在于:所述的对学生模型的参数进行更新采用梯度下降算法计算。
8.应用权利要求1-7中任意一项所述的基于知识蒸馏的预训练模型集成加速方法的装置,其特征在于:包括教师模型集团、似然估计池化器、学生模型、知识蒸馏装置和学生预训练模型;
所述的教师模型集团包括多个教师模型,用于对已标注分类标签的客户咨询文本训练数据进行训练,得到各个教师模型对应的似然估计概率值;
所述的学生模型用于对已标注分类标签的客户咨询文本训练数据进行训练,得到学生模型对应的似然估计概率值;
所述的似然估计池化器用于对教师模型集团输出的似然估计概率值进行池化操作,输出池化后的似然估计概率值;
所述的知识蒸馏装置用于衡量教师模型集团经过池化后的似然估计概率值与学生模型似然估计概率值间的差异值,并对学生模型进行参数更新,得到似然估计概率值最接近教师模型集团池化后的似然估计概率值的学生模型;
所述的学生预训练模型包括得到的学生模型的特征提取器和特征编码器,用于将待训练的客户咨询文本数据编码成客户咨询文本数据特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都晓多科技有限公司,未经成都晓多科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911134079.6/1.html,转载请声明来源钻瓜专利网。





