[发明专利]一种语种识别的方法、模型训练的方法、装置及设备有效

申请号：	201911137417.1	申请日：	2019-11-19
公开（公告）号：	CN110853618B	公开（公告）日：	2022-08-19
发明（设计）人：	高骥;张姗姗;黄申;巫海维;蔡炜城;李明	申请（专利权）人：	腾讯科技（深圳）有限公司;昆山杜克大学
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/06;G10L15/16;G10L21/0272;G10L21/0308;G10L25/18;G10L25/30
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	吴磊
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语种识别方法模型训练装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语种识别的方法，其特征在于，包括：

获取待识别音频数据；

从所述待识别音频数据提取音频频域特征；

基于所述音频频域特征，对所述待识别音频数据进行声伴数据分离，得到待识别语音数据，其中，所述声伴数据分离为从音频数据中分离出语音数据和伴奏数据；

对所述待识别语音数据进行语种识别，得到所述待识别音频数据的语种识别结果；

其中，所述基于所述音频频域特征，对所述待识别音频数据进行声伴数据分离，得到待识别语音数据，包括：

基于所述音频频域特征，通过声伴分离模型所包括的第一卷积神经网络对所述音频频域特征进行正向卷积处理，得到音频深度特征，其中，所述第一卷积神经网络包括多个正向卷积层；

通过所述声伴分离模型所包括的多层感知机对所述音频深度特征进行分类处理，得到第一语音数据特征以及第一伴奏数据特征；

通过所述声伴分离模型所包括的第二卷积神经网络对所述第一语音数据特征进行反向卷积处理，得到第二语音数据特征，其中，所述第二卷积神经网络包括第一逆向卷积网络以及第二逆向卷积网络，所述第一逆向卷积网络用于对所述第一语音数据特征进行反向卷积处理，所述第二逆向卷积网络用于对所述第一伴奏数据特征进行反向卷积处理，且所述第一逆向卷积网络与所述第二逆向卷积网络均包括多逆向卷积层；

根据所述第二语音数据特征获取待识别语音数据，其中，所述待识别语音数据属于音频时域信号；

或，所述基于所述音频频域特征，对所述待识别音频数据进行声伴数据分离，得到待识别语音数据，包括：

基于所述音频频域特征，通过声伴分离模型所包括的第一卷积神经网络对所述音频频域特征进行正向卷积处理，得到第一音频深度特征，其中，所述第一卷积神经网络包括多个正向卷积层；

基于所述第一音频深度特征，通过所述声伴分离模型所包括的第二卷积神经网络对所述第一音频深度特征进行反向卷积处理，得到第二音频深度特征，其中，所述第二卷积神经网络包括多逆向卷积层；

通过所述声伴分离模型所包括的多层感知机对所述第二音频深度特征进行分类处理，得到语音数据特征以及伴奏数据特征，其中，所述多层感知机包括第一多层感知机以及第二多层感知机，所述第一多层感知机用于获取所述语音数据特征，所述第二多层感知机用于获取所述伴奏数据特征；

基于所述语音数据特征，获取待识别语音数据，其中，所述待识别语音数据属于音频时域信号。

2.根据权利要求1所述的方法，其特征在于，所述通过所述声伴分离模型所包括的多层感知机对所述音频深度特征进行分类处理，得到第一语音数据特征以及第一伴奏数据特征之后，所述方法还包括：

基于所述第一伴奏数据特征，通过所述声伴分离模型获取第二伴奏数据特征；

根据所述第二伴奏数据特征获取伴奏数据，其中，所述伴奏数据属于音频时域信号。

3.根据权利要求1至2中任一项所述的方法，其特征在于，所述对所述待识别语音数据进行语种识别，得到所述待识别音频数据的语种识别结果，包括：

根据所述待识别语音数据生成第一语音频域特征；

基于所述第一语音频域特征，通过第一语种识别模型获取第一语种分布概率，其中，所述第一语种识别模型属于语种识别模型；