[发明专利]基于非自回归模型的语音识别方法及相关设备在审
| 申请号: | 202210036528.9 | 申请日: | 2022-01-12 |
| 公开(公告)号: | CN114420107A | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 张之勇;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/08;G10L25/27 |
| 代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 刘畅 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 回归 模型 语音 识别 方法 相关 设备 | ||
1.一种基于非自回归模型的语音识别方法,其特征在于,应用在基于非自回归模型具有编码器和解码器的系统中,所述解码器具有K层,其中K为正整数,所述方法包括下述步骤:
将待识别的语音信号输入到编码器中得到所述语音信号的编码比特流,所述编码器采用连接时序分类CTC损失函数为目标函数进行训练,将训练后的所述编码比特流作为编码器的输出;
将所述编码器的输出输入到第一层解码器,除所述第一层解码器外的第K层解码器以第K-1层解码器的输出作为输入,每一层解码器均采用CTC损失函数为目标函数进行训练,并经过归一化指数函数处理得到每一层解码器的输出,最后一层解码器的输出作为解码器的整体输出;
基于解码器的整体输出,采用交叉熵损失函数进行训练,得到语音识别结果。
2.根据权利要求1所述的基于非自回归模型的语音识别方法,其特征在于,所述编码器包括多头注意力层和前馈神经网络,所述多头注意力层和前馈神经网络采用残差连接,并且施加层归一化;
所述将待识别的语音信号输入到编码器中得到所述语音信号的编码比特流,采用CTC损失函数为目标函数进行训练,将训练后的所述编码比特流作为编码器的输出的步骤具体包括:
将待识别的语音信号输入到编码器中得到所述语音信号的编码比特流,通过所述多头注意力层进行计算,通过所述前馈神经网络进行前向反馈,并采用所述CTC损失函数为目标函数进行训练,直至训练损失值小于第一目标损失阈值时,将训练后的所述编码比特流作为编码器的输出。
3.根据权利要求2所述的基于非自回归模型的语音识别方法,其特征在于,将所述编码器的输出输入到第一层解码器,除所述第一层解码器外的第K层解码器以第K-1层解码器的输出作为输入的步骤,具体包括:
将所述训练后的编码比特流输入到第一层解码器,所述解码器进行解码生成语音数据,所述第一层解码器基于所述语音数据进行训练,并将训练后的语音数据作为第一层编码器的输出;
除所述第一层解码器外的第K层解码器以第K-1层解码器输出的语音数据作为输入。
4.根据权利要求3所述的基于非自回归模型的语音识别方法,其特征在于,所述每一层解码器包括遮蔽多头注意力层、多头注意力层和前馈神经网络,遮蔽多头注意力层、多头注意力层和前馈神经网络采用残差连接,并且施加层归一化;所述每一层解码器均采用CTC损失函数为目标函数进行训练,并经过归一化指数函数处理得到每一层解码器的输出的步骤具体包括:
每一层解码器通过遮蔽多头注意力层对输入的语音数据中的无用信息进行遮蔽,基于遮蔽后的语音数据,通过所述多头注意力层进行计算,通过所述前馈神经网络进行前向反馈,并采用CTC损失函数为目标函数进行训练,当每一层解码器的训练损失值小于第二目标损失阈值时,使用Softmax函数作为每一层解码器输出的激活函数,并经过相关性的归一化处理后得到每一层解码器的输出。
5.根据权利要求4所述的基于非自回归模型的语音识别方法,其特征在于,所述每一层解码器的遮蔽多头注意力层对输入的语音数据中的无用信息进行遮蔽的步骤具体包括:
每一层解码器通过遮蔽多头注意力层去除语音数据中连续重复的字符,并删除CTC损失函数在对所述语音数据进行训练时引入的空格标签。
6.根据权利要求5所述的基于非自回归模型的语音识别方法,其特征在于,所述每一层解码器均采用CTC损失函数为目标函数进行训练的步骤中,第k层编码器采用的CTC损失函数为:
其中,E为期望计算,k为当前层数,ak为第k层的输出标签值,x为输入的语音数据,pref(ak|ak-1,x)表示输入的x在ak-1条件下ak的输出概率,以及为所有可得到结果为y的潜在单调排列,y为第k层的正确标签值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210036528.9/1.html,转载请声明来源钻瓜专利网。





