[发明专利]语音识别模型的训练方法、语音识别方法和系统有效
申请号: | 202111548060.3 | 申请日: | 2021-12-17 |
公开(公告)号: | CN113936647B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 陶建华;田正坤;易江燕 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G10L15/26;G10L19/16;G10L25/03;G10L25/24 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 李永叶 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 模型 训练 方法 系统 | ||
本发明实施例公开了一种语音识别模型的训练方法、语音识别方法和系统,涉及语音识别技术领域。该实施例包括:将音频训练样本输入声学编码器,对音频训练样本进行编码表示,确定声学编码状态向量;将预设的词表输入语言预测器中,确定文本预测向量;将文本预测向量线输入文本映射层,得到文本输出概率分布;根据音频训练样本对应的目标文本序列和文本输出概率分布,计算第一损失函数;将文本预测向量和声学编码状态向量输入联合网络,计算第二损失函数,根据第一损失函数和第二损失函数进行迭代优化,直至满足停止条件。本实施例对语音识别模型的训练、预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别模型的训练方法、语音识别方法和系统。
背景技术
基于Transducer的语音识别模型在国内外获得了广泛的应用,其典型特点是能够直接适配流式语音识别任务。其虽然引入了语言预测器,但是其语言建模能力不足,经研究发现,语言预测器在真实推理中并没有起到类似语言模型的作用,而更多的承担了消除重复标签的功能,其建模语言之间依赖关系的能力还有进一步提升的空间。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供一种语音识别模型的训练方法、语音识别方法、语音识别系统、电子设备和计算机可读存储介质。
第一方面,本发明实施例提供了一种语音识别模型的训练方法,所述语音识别模型包括声学编码器、语言预测器、文本映射层和联合网络,所述方法包括:
将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示,确定所述音频训练样本的声学编码状态向量;
将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;
将所述文本预测向量输入所述文本映射层,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;
根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;
将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件。
在可选的实施例中,据所述第一损失函数和所述第二损失函数进行迭代优化包括:根据所述第一损失函数和所述第二损失函数,确定第三损失函数;根据所述第三损失函数进行迭代优化。
在可选的实施例中,所述第一损失函数为交叉熵损失函数,所述第二损失函数为Transducer损失函数。
在可选的实施例中,所述方法还包括根据下式确定第三损失函数:
其中,L表示第三损失函数,表示第一损失函数,表示第二损失函数,表示预设的权重。
在可选的实施例中,将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示包括:将音频训练样本输入所述声学编码器获取所述音频训练样本的声学特征,并对所述音频训练样本的声学特征进行编码表示。
第二方面,本发明实施例提供了一种语音识别方法,所述方法应用于上述实施例所训练得到的语音识别模型,所述语音识别模型包括:声学编码器、语言预测器、文本映射层和联合网络;所述方法包括:
将待识别音频输入所述声学编码器进行编码表示,确定所述待识别音频的声学编码状态向量;
将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111548060.3/2.html,转载请声明来源钻瓜专利网。