[发明专利]模型蒸馏方法、装置及存储介质在审
| 申请号: | 202010862154.7 | 申请日: | 2020-08-24 | 
| 公开(公告)号: | CN114090727A | 公开(公告)日: | 2022-02-25 | 
| 发明(设计)人: | 徐坤;张钊;孟函可;王宝军;张宇洋 | 申请(专利权)人: | 华为技术有限公司 | 
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/216;G06F40/295;G06F40/30 | 
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;李稷芳 | 
| 地址: | 518129 广东*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 模型 蒸馏 方法 装置 存储 介质 | ||
1.一种模型蒸馏方法,其特征在于,包括:
获取文本样本,所述文本样本中包括至少一对实体标签,所述至少一对实体标签中每对实体标签用于表征一个实体类型;
将所述文本样本分别输入教师模型和学生模型,确定损失集,所述损失集包括第一损失第二损失以及第三损失,所述第一损失是根据第一意图和第二意图之间的差异确定的,所述第一意图和所述第二意图是通过所述教师模型和所述学生模型,并根据所述至少一对实体标签分别对所述文本样本分别进行意图识别得到的;所述第二损失是根据所述至少一对实体标签中每个实体标签对应的第一特征向量和第二特征向量之间的差异确定的,所述每个实体标签对应的第一特征向量和第二特征向量是通过所述教师模型和所述学生模型分别对所述每个实体标签进行编码得到的;所述第三损失是根据所述文本样本中每个单词对应的第一槽位填充结果和第二槽位填充结果之间的差异确定的,其中,所述每个单词对应的第一槽位填充结果和第二槽位填充结果是通过所述教师模型和所述学生模型,并根据所述至少一对实体标签分别对所述每个单词进行槽位填充得到的;
根据所述损失集,调整所述学生模型的模型参数,以对所述学生模型进行训练。
2.根据权利要求1所述的方法,其特征在于,
所述每对实体标签中的一个实体标签用于指示所述文本样本中的第一实体词在所述文本样本中的起始位置,另一个实体标签用于指示所述第一实体词在所述文本样本中的结束位置;且所述每个实体标签所表征的实体类型与所述第一实体词对应的实体类型相同或者不同。
3.根据权利要求1或2所述的方法,其特征在于,
所述损失集还包括第四损失,所述第四损失是根据所述文本样本中每个单词对应的第三词向量和第四词向量之间的差异确定的,所述文本样本中每个单词对应的第三词向量和第四词向量是通过所述教师模型和所述学生模型分别对所述每个单词进行编码得到的。
4.根据权利要求3所述的方法,其特征在于,
所述损失集还包括第五损失,所述第五损失是根据所述文本样本中每个单词对应的第一目标词向量和第二目标词向量之间的差异确定的,其中,所述文本样本中每个单词对应的第一目标词向量和第二目标词向量是通过所述教师模型和所述学生模型中的注意力机制,分别对所述每个单词对应的第三词向量和第四向量进行注意力加权得到的。
5.根据权利要求4所述的方法,其特征在于,所述根据所述损失集,调整所述学生模型的模型参数,包括:
对所述第一损失、所述第二损失、所述第三损失、所述第四损失和所述第五损失进行加权处理,得到目标损失;
根据所述目标损失,调整所述学生模型的模型参数。
6.根据权利要求1-5中任一项所述的方法,其特征在于,获取文本样本之前,所述方法还包括:
获取第一文本序列;
对所述第一文本序列进行文本增强,得到至少一个第二文本序列,其中,所述至少一个第二文本序列中的每个第二文本序列与所述第一文本序列的意图相同;
对所述至少一个第二文本序列中的每个第二文本序列的第二实体词进行替换,得到与所述每个第二文本序列对应的至少一个第三文本序列;
对所述每个第二文本序列对应的至少一个第三文本序列中的每个第三文本序列添加至少一对实体标签,得到所述文本样本。
7.根据权利要求6所述的方法,其特征在于,所述对所述第一文本序列进行文本增强,得到至少一个第二文本序列,包括:
确定与第一词语对应的至少一个第二词语,所述第一词语为所述第一文本序列中除停用词、实体词以及垂类词之外的其他词语中的任意一个词语;
分别使用所述至少一个第二词语中的每个第二词语对所述第一文本序列中的第一词语进行替换,得到所述至少一个第二文本序列。
8.根据权利要求6或7所述的方法,其特征在于,所述确定与第一词语对应的至少一个第二词语,包括:
对所述第一文本序列中的第一词语进行遮挡,得到第四文本序列;
根据所述第四文本序列进行词语预测,得到与所述第一词语对应的至少一个第二词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010862154.7/1.html,转载请声明来源钻瓜专利网。





