[发明专利]语音识别方法、模型训练方法、装置、介质、电子设备在审
申请号: | 202211033301.5 | 申请日: | 2022-08-26 |
公开(公告)号: | CN115376498A | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 周立峰;朱浩齐;杨卫强;李雨珂;魏凯峰 | 申请(专利权)人: | 杭州网易智企科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L17/04;G10L17/06;G10L25/51;G10L25/03 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海 |
地址: | 310052 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 模型 训练 装置 介质 电子设备 | ||
1.一种语音识别方法,其特征在于,包括:
将待识别音频数据输入至第一语音特征提取子模型,得到所述待识别音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述待识别音频数据的频域特征数据,所述时域分支用于输出的所述待识别音频数据的时域特征数据;
将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述待识别音频数据的分类结果,所述分类结果用以指示所述待识别音频数据是否为真实语音。
2.根据权利要求1所述的语音识别方法,其特征在于,所述第一语音特征提取子模型为WavLM模型或者Wav2vec模型。
3.根据权利要求2所述的语音识别方法,其特征在于,所述第一语音特征提取子模型为WavLM模型,所述第一语音特征提取子模型包括:
卷积编码模块,用于对所述待识别音频数据进行编码获得编码数据;
Transformer编码模块,包括J个特征提取层,其中,第一个特征提取层用于根据所述编码数据提取特征数据C1,第j个特征提取层用于根据特征数据Cj-1提取特征数据Cj,j为大于1且小于J的整数,J为大于1的整数,其中,所述初始特征数据根据特征数据C1至Cj获得。
4.根据权利要求3所述的语音识别方法,其特征在于,所述第一语音特征提取子模型还包括:
自注意力模块,用于对所述特征数据C1至Cj进行加权求和,得到所述待识别音频数据的初始特征数据。
5.根据权利要求2所述的语音识别方法,其特征在于,所述第一语音特征提取子模型为Wav2vec模型,所述第一语音特征提取子模型包括:
特征提取层,用于提取所述待识别音频数据的浅层特征数据;
上下文编码层,用于提取所述待识别音频数据的相邻帧的浅层特征数据之间的关联特征数据,得到所述待识别音频数据的初始特征数据。
6.一种语音识别模型训练方法,其特征在于,包括:
将样本音频数据输入至第一语音特征提取子模型,得到所述样本音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述样本音频数据的频域特征数据,所述时域分支用于输出所述样本音频数据的时域特征数据;
将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述样本音频数据的预测分类结果,所述预测分类结果用以预测所述样本音频数据是否为真实语音;
根据所述预测分类结果以及所述样本音频数据的类别标签训练所述语音识别模型。
7.一种语音识别装置,其特征在于,包括:
第一输入模块,用于将待识别音频数据输入至第一语音特征提取子模型,得到所述待识别音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
第二输入模块,用于将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述待识别音频数据的频域特征数据,所述时域分支用于输出的所述待识别音频数据的时域特征数据;
第三输入模块,用于将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述待识别音频数据的分类结果,所述分类结果用以指示所述待识别音频数据是否为真实语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州网易智企科技有限公司,未经杭州网易智企科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211033301.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电机铁芯、涡旋压缩机及制冷设备
- 下一篇:一种合成气生物发酵系统