[发明专利]语音识别方法、装置、电子设备和存储介质在审
申请号: | 202110943389.3 | 申请日: | 2021-08-17 |
公开(公告)号: | CN113643694A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 杜叶倩 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/18;G10L15/183;G10L15/26 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 电子设备 存储 介质 | ||
1.一种语音识别方法,其特征在于,包括:
确定待识别的语音数据;
基于语音识别模型,对所述语音数据进行语音识别,将语音识别所得的语音语义特征转换为文本语义特征,并基于所述文本语义特征生成语音识别文本;
其中,所述语音识别模型是基于预训练语音模型和预训练语言模型训练得到的,所述语音语义特征属于所述预训练语音模型的特征空间,所述文本语义特征属于所述预训练语言模型的特征空间。
2.根据权利要求1所述的语音识别方法,其特征在于,所述将语音识别所得的语音语义特征转换为文本语义特征,包括:
基于所述语音识别模型中的转换模块,对所述语音语义特征进行长度转换和特征空间转换,得到所述文本语义特征,所述文本语义特征的长度是对所述语音语义特征进行文本长度预测得到的。
3.根据权利要求2所述的语音识别方法,其特征在于,所述基于所述语音识别模型中的转换模块,对所述语音语义特征进行长度转换,包括:
基于所述转换模块,按照采样比例对所述语音语义特征进行均匀采样,所述采样比例是基于所述语音语义特征的长度和所述文本长度预测的结果确定的。
4.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述文本语义特征生成语音识别文本,包括:
基于所述语音识别模型中的预训练语言模型,对所述文本语义特征进行文本预测,得到文本预测特征,基于所述文本语义特征和所述文本预测特征生成所述语音识别文本。
5.根据权利要求1至4中任一项所述的语音识别方法,其特征在于,所述语音识别模型的模型损失函数是基于语音识别损失函数和长度预测损失函数确定的;
所述语音识别损失函数是基于样本语音对应的样本文本,以及所述样本语音的文本语义特征确定的;
所述长度预测损失函数是基于所述样本语音对应的样本文本的长度和所述文本语义特征的长度确定的。
6.根据权利要求5所述的语音识别方法,其特征在于,所述模型损失函数是基于所述语音识别损失函数、所述文本生成损失函数和长度预测损失函数确定的;
所述文本生成损失函数是基于所述样本语音对应的样本文本和语音识别文本确定的。
7.根据权利要求6所述的语音识别方法,其特征在于,所述语音识别模型是基于如下步骤训练得到的:
构建初始模型,所述初始模型包括所述预训练语音模型和预训练语言模型,以及连接所述预训练语音模型和所述预训练语言模型的初始转换模块;
基于所述语音识别损失函数和长度预测损失函数训练所述初始转换模块,得到包含训练后的初始转换模块的阶段模型;
基于所述语音识别损失函数、所述文本生成损失函数和长度预测损失函数,训练所述阶段模型。得到所述语音识别模型。
8.一种语音识别装置,其特征在于,包括:
语音数据确定单元,用于确定待识别的语音数据;
语音识别单元,用于基于语音识别模型,对所述语音数据进行语音识别,将语音识别所得的语音语义特征转换为文本语义特征,并基于所述文本语义特征生成语音识别文本;
其中,所述语音识别模型是基于预训练语音模型和预训练语言模型训练得到的,所述语音语义特征属于所述预训练语音模型的特征空间,所述文本语义特征属于所述预训练语言模型的特征空间。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110943389.3/1.html,转载请声明来源钻瓜专利网。