[发明专利]语音识别方法、装置、电子设备和存储介质在审
申请号: | 202110943389.3 | 申请日: | 2021-08-17 |
公开(公告)号: | CN113643694A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 杜叶倩 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/18;G10L15/183;G10L15/26 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 电子设备 存储 介质 | ||
本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别的语音数据;基于语音识别模型,对语音数据进行语音识别,将语音识别所得的语音语义特征转换为文本语义特征,并基于文本语义特征生成语音识别文本;其中,语音识别模型是基于预训练语音模型和预训练语言模型训练得到的,语音语义特征属于预训练语音模型的特征空间,文本语义特征属于预训练语言模型的特征空间。本发明实施例提供的方法、装置、电子设备和存储介质,实现了预训练语音模型与预训练语言模型的直接结合,充分利用无标注语音数据和文本数据分别进行语音模型和语言模型的预训练,减少了对高成本有标注数据的依赖。
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种语音识别方法、装置、电子设备和存储介质。
背景技术
通常语音识别模型从随机初始化开始训练,随着训练样本的输入,语音识别模型根据样本的预测情况寻找梯度下降方向,丰富的数据为语音识别模型提供充分的指导,多轮迭代后得到较优的模型参数。
然而,在语音识别模型需要执行低资源语种的语音识别任务时,可供训练的标注数据量很少,从随机初始化开始训练容易造成对少量数据的过拟合。因此模型预训练对于提升低资源语种的语音识别性能十分重要。
目前,通常只针对语音模型做预训练,而语言模型由于依赖语音模型的输出作为输入而难以单独预训练。
发明内容
本发明提供一种语音识别方法、装置、电子设备和存储介质,用以解决现有技术中只针对语音模型做预训练,而语言模型由于依赖语音模型的输出作为输入而难以单独预训练的缺陷。
本发明提供一种语音识别方法,包括:
确定待识别的语音数据;
基于语音识别模型,对所述语音数据进行语音识别,将语音识别所得的语音语义特征转换为文本语义特征,并基于所述文本语义特征生成语音识别文本;
其中,所述语音识别模型是基于预训练语音模型和预训练语言模型训练得到的,所述语音语义特征属于所述预训练语音模型的特征空间,所述文本语义特征属于所述预训练语言模型的特征空间。
根据本发明提供的一种语音识别方法,所述将语音识别所得的语音语义特征转换为文本语义特征,包括:
基于所述语音识别模型中的转换模块,对所述语音语义特征进行长度转换和特征空间转换,得到所述文本语义特征,所述文本语义特征的长度是对所述语音语义特征进行文本长度预测得到的。
根据本发明提供的一种语音识别方法,所述基于所述语音识别模型中的转换模块,对所述语音语义特征进行长度转换,包括:
基于所述转换模块,按照采样比例对所述语音语义特征进行均匀采样,所述采样比例是基于所述语音语义特征的长度和所述文本长度预测的结果确定的。
根据本发明提供的一种语音识别方法,所述基于所述文本语义特征生成语音识别文本,包括:
基于所述语音识别模型中的预训练语言模型,对所述文本语义特征进行文本预测,得到文本预测特征,基于所述文本语义特征和所述文本预测特征生成所述语音识别文本。
根据本发明提供的一种语音识别方法,所述语音识别模型的模型损失函数是基于语音识别损失函数和长度预测损失函数确定的;
所述语音识别损失函数是基于样本语音对应的样本文本,以及所述样本语音的文本语义特征确定的;
所述长度预测损失函数是基于所述样本语音对应的样本文本的长度和所述文本语义特征的长度确定的。
根据本发明提供的一种语音识别方法,所述模型损失函数是基于所述语音识别损失函数、所述文本生成损失函数和长度预测损失函数确定的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110943389.3/2.html,转载请声明来源钻瓜专利网。