[发明专利]基于注意力机制的自蒸馏中文分词方法、终端及存储介质在审
申请号: | 202210051393.3 | 申请日: | 2022-01-17 |
公开(公告)号: | CN114386409A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 蔡树彬;何日安;明仲 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 朱阳波 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 蒸馏 中文 分词 方法 终端 存储 介质 | ||
1.一种基于注意力机制的自蒸馏中文分词方法,其特征在于,所述基于注意力机制的自蒸馏中文分词方法包括以下步骤:
将预处理后的训练集引入预训练模型;
通过迭代训练获得教师模型;
通过所述教师模型与学生模型获取注意力权重矩阵;
将所述注意力权重矩阵引入知识蒸馏过程,对所述学生模型进行有针对性的学习训练;
通过验证集对学习训练所获得的整个模型进行验证,得到蒸馏后的中文分词模型。
2.根据权利要求1所述的基于注意力机制的自蒸馏中文分词方法,其特征在于,所述将预处理后的训练集引入预训练模型,之前包括:
从原训练集中获取中文分词词典;
从所述原训练集中随机抽取第一比例的数据作为所述训练集;
从所述原训练集中随机抽取第二比例的数据作为所述验证集。
3.根据权利要求1所述的基于注意力机制的自蒸馏中文分词方法,其特征在于,所述将预处理后的训练集引入预训练模型,之前还包括:
将所述训练集中的字符串转化为字符向量,并将所述字符向量与用于表达字符位置的位置向量结合,得到所述预处理后的训练集。
4.根据权利要求1所述的基于注意力机制的自蒸馏中文分词方法,其特征在于,所述通过迭代训练获得教师模型,包括:
通过所述验证集对所述学生模型进行验证,判断所述学生模型获得的F1值是否达到历史最高;
若为是,则将所述学生模型保存为下一迭代过程中的教师模型。
5.根据权利要求1所述的基于注意力机制的自蒸馏中文分词方法,其特征在于,所述通过教师模型与学生模型获取注意力权重矩阵,包括:
计算所述学生模型输出的预测分词结果与真实分词结果之间的第一差异信息;
计算所述教师模型输出的预测分词结果与真实分词结果之间的第二差异信息;
通过所述第一差异信息和所述第二差异信息获得所述注意力权重矩阵。
6.根据权利要求1所述的基于注意力机制的自蒸馏中文分词方法,其特征在于,所述将注意力权重矩阵引入知识蒸馏过程,对所述学生模型进行有针对性的学习训练,包括:
通过所述注意力权重矩阵计算所述学生模型的整体损失;
将所述整体损失反向传播至所述学生模型,以更新所述学生模型中各节点的参数信息。
7.根据权利要求6所述的基于注意力机制的自蒸馏中文分词方法,其特征在于,所述通过注意力权重矩阵计算所述学生模型的整体损失,包括:
将所述注意力权重矩阵分别与所述学生模型输出的预测分词结果和所述教师模型输出的预测分词结果进行交互,得到交互信息;
根据所述交互信息进行知识蒸馏,计算蒸馏损失;
通过所述蒸馏损失与常规交叉熵损失计算所述学生模型的整体损失。
8.根据权利要求1所述的基于注意力机制的自蒸馏中文分词方法,其特征在于,所述基于注意力机制的自蒸馏中文分词方法,还包括:
对迭代训练完成后的整体模型进行中文分词测试。
9.一种终端,其特征在于,包括:处理器以及存储器,所述存储器存储有基于注意力机制的自蒸馏中文分词程序,所述基于注意力机制的自蒸馏中文分词程序被所述处理器执行时用于实现如权利要求1-8中任意一项所述的基于注意力机制的自蒸馏中文分词方法。
10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质存储有基于注意力机制的自蒸馏中文分词程序,所述基于注意力机制的自蒸馏中文分词程序被处理器执行时用于实现如权利要求1-8中任意一项所述的基于注意力机制的自蒸馏中文分词方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210051393.3/1.html,转载请声明来源钻瓜专利网。