[发明专利]语音识别模型的训练方法、语音识别方法和系统有效
申请号: | 202111548060.3 | 申请日: | 2021-12-17 |
公开(公告)号: | CN113936647B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 陶建华;田正坤;易江燕 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G10L15/26;G10L19/16;G10L25/03;G10L25/24 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 李永叶 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 模型 训练 方法 系统 | ||
1.一种语音识别模型的训练方法,其特征在于,所述语音识别模型包括声学编码器、语言预测器、文本映射层和联合网络,所述方法包括:
将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示,确定所述音频训练样本的声学编码状态向量;
将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;
将所述文本预测向量线输入所述文本映射层,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;
根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;
将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件,
其中,据所述第一损失函数和所述第二损失函数进行迭代优化包括:
根据所述第一损失函数和所述第二损失函数,确定第三损失函数;
根据所述第三损失函数进行迭代优化。
2.根据权利要求1所述的方法,其特征在于,所述第一损失函数为交叉熵损失函数,所述第二损失函数为Transducer损失函数。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括根据下式确定第三损失函数:
其中,L表示第三损失函数,表示第一损失函数,表示第二损失函数,表示预设的权重。
4.根据权利要求1所述的方法,其特征在于,将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示包括:
将音频训练样本输入所述声学编码器获取所述音频训练样本的声学特征,并对所述音频训练样本的声学特征进行编码表示。
5.一种语音识别方法,其特征在于,所述方法应用于权利要求1-4任一项所训练得到的语音识别模型,所述语音识别模型包括:声学编码器、语言预测器、文本映射层和联合网络;所述方法包括:
将待识别音频输入所述声学编码器进行编码表示,确定所述待识别音频的声学编码状态向量;
将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;
将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;
将所述文本预测向量和所述声学编码状态向量输入所述联合网络,确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;
根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
6.根据权利要求5所述的方法,其特征在于,根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容包括:
计算所述第一概率和所述第二概率的加权和;
将最大的所述加权和作为所述待识别音频对应的文本内容。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括根据下式确定待识别音频对应的文本内容:
其中,Token表示待识别音频对应的文本内容,表示第一概率,表示第二概率,表示文本融合权重,表示t时刻的声学编码状态向量,
表示预设的词表中第u个标签。
8.根据权利要求5所述的方法,其特征在于,将待识别音频输入所述声学编码器进行编码表示包括:
将待识别音频输入所述声学编码器获取所述待识别音频的声学特征,并对所述音频训练样本的声学特征进行编码表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111548060.3/1.html,转载请声明来源钻瓜专利网。