[发明专利]基于语言模型的语言识别方法、文本分类方法和装置有效
申请号: | 202010667400.3 | 申请日: | 2020-07-13 |
公开(公告)号: | CN111554268B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 黄展鹏;赵博;赵瑞辉;陆扩建 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/06;G10L15/18;G06N3/08;G06N3/04;G06F16/35 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 毛丹 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 模型 识别 方法 文本 分类 装置 | ||
1.一种基于语言模型的语言识别方法,其特征在于,所述方法包括:
获取训练语句对应的训练词向量;
将所述训练词向量分别输入到待训练的第一模型和已训练的第二模型中,得到所述第一模型的各个第一网络层输出的特征矩阵,以及所述第二模型的各个第二网络层输出的特征矩阵;所述第一网络层与所述第二网络层一一对应,所述第一模型的网络层层数小于所述第二模型的网络层层数,所述第一模型和第二模型均包括多层变换层,各层变换层均包括自注意力网络和隐藏网络,所述自注意力网络包括多个自注意力头,各个自注意力头均包括查询矩阵、键值矩阵和值矩阵;
将所述各个第一网络层输出的特征矩阵与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算,得到各个相似度,基于所述各个相似度得到目标相似度;所述相似度包括变换层对应的相似度,所述变换层对应的相似度是根据目标自注意力网络损失和隐藏网络损失计算得到,所述目标自注意力网络损失是基于所述第一模型的变换层中自注意力网络输出的特征矩阵和所述第二模型对应的变换层中自注意力网络输出的特征矩阵计算得到,所述隐藏网络损失是基于所述第一模型的变换层中隐藏网络输出的特征矩阵和所述第二模型对应的变换层中隐藏网络输出的特征矩阵计算得到,所述自注意力网络输出的特征矩阵包括各个自注意力头对应的自注意力特征矩阵和自注意力值特征矩阵,所述自注意力特征矩阵是通过自注意力网络中各个自注意力头中的查询矩阵、键值矩阵和值矩阵分别对所述自注意力网络的输入矩阵提取特征,得到各个自注意力头对应的特征矩阵集合,各个特征矩阵集合均包括查询特征矩阵、键值特征矩阵和值特征矩阵,将同一特征矩阵集合中的查询特征矩阵和键值特征矩阵进行融合得到的,所述自注意力值特征矩阵是将同一特征矩阵集合中的值特征矩阵进行自身融合得到的;
根据所述目标相似度调整所述第一模型的模型参数,直到更新后的目标相似度满足收敛条件,得到已训练的第一模型,并通过所述第一模型进行语言识别。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一模型的变换层中自注意力网络输出的特征矩阵和所述第二模型对应的变换层中自注意力网络输出的特征矩阵,计算得到目标自注意力网络损失,包括:
以自注意力头为单位,根据所述第一模型的变换层中自注意力网络输出的自注意力特征矩阵和所述第二模型对应的变换层中自注意力网络输出的自注意力特征矩阵进行散度计算,得到各个第一自注意力网络损失;
以自注意力头为单位,根据所述第一模型的变换层中自注意力网络输出的自注意力值特征矩阵和所述第二模型对应的变换层中自注意力网络输出的自注意力值特征矩阵进行散度计算,得到各个第二自注意力网络损失;
基于所述各个第一自注意力网络损失和各个第二自注意力网络损失得到所述目标自注意力网络损失。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一模型的变换层中隐藏网络输出的特征矩阵和所述第二模型对应的变换层中隐藏网络输出的特征矩阵,计算得到隐藏网络损失,包括:
将第一模型的变换层中隐藏网络输出的特征矩阵进行维度转换得到第一目标特征矩阵;所述第一目标特征矩阵的维度和所述第二模型对应的变换层中隐藏网络输出的特征矩阵的维度相同;
计算所述第一目标特征矩阵和所述第二模型对应的变换层中隐藏网络输出的特征矩阵之间的距离,得到所述隐藏网络损失。
4.根据权利要求1所述的方法,其特征在于,所述第一模型和第二模型还包括嵌入层;所述将所述各个第一网络层输出的特征矩阵与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算,得到各个相似度,包括:
将第一模型的嵌入层输出的特征矩阵进行维度转换得到第二目标特征矩阵;所述第二目标特征矩阵的维度和所述第二模型对应的嵌入层输出的特征矩阵的维度相同;
计算所述第二目标特征矩阵和所述第二模型对应的嵌入层输出的特征矩阵之间的距离,得到所述嵌入层对应的相似度。
5.根据权利要求4所述的方法,其特征在于,基于所述各个相似度得到目标相似度,包括:
基于所述变换层对应的相似度和所述嵌入层对应的相似度得到目标相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010667400.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信号译码系统
- 下一篇:一种卫星通信网管信道报文加解密方法及系统