[发明专利]语音模型训练方法、语音识别方法、装置、设备及介质在审
申请号: | 201810551458.4 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108922515A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 涂宏 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L25/18;G10L25/24;G10L25/30;G10L25/45 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 谭果林 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音模型 目标语音 训练语音 获取目标 关联存储 目标背景 声纹特征 语音识别 语音特征 数据提取目标 自适应处理 神经网络 数据提取 特征获取 特征识别 特征输入 语音数据 数据库 语音 | ||
1.一种语音模型训练方法,其特征在于,包括:
获取训练语音数据,基于所述训练语音数据提取训练语音特征;
基于所述训练语音特征获取目标背景模型;
获取目标语音数据,基于所述目标语音数据提取目标语音特征;
采用所述目标背景模型对所述目标语音特征进行自适应处理,获取目标声纹特征识别模型;
将所述目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型;
将所述目标声纹特征识别模型和所述目标语音特征识别模型关联存储在数据库中。
2.根据权利要求1所述的语音模型训练方法,其特征在于,所述基于所述训练语音数据提取训练语音特征,包括:
对所述训练语音数据进行预处理;
对预处理后的训练语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据所述频谱获取训练语音数据的功率谱;
采用梅尔刻度滤波器组处理所述训练语音数据的功率谱,获取训练语音数据的梅尔功率谱;
在所述梅尔功率谱上进行倒谱分析,获取训练语音数据的梅尔频率倒谱系数,并将获取到的梅尔频率倒谱系数确定为所述训练语音特征。
3.根据权利要求2所述的语音模型训练方法,其特征在于,所述对所述训练语音数据进行预处理,包括:
对所述训练语音数据作预加重处理;
对预加重后的所述训练语音数据进行分帧处理;
对分帧处理后的所述训练语音数据进行加窗处理。
4.根据权利要求1所述的语音模型训练方法,其特征在于,所述基于所述训练语音特征获取目标背景模型,包括:
采用所述训练语音特征进行通用背景模型训练,获取通用背景模型;
采用奇异值分解对所述通用背景模型进行特征降维处理,获取所述目标背景模型。
5.根据权利要求1所述的语音模型训练方法,其特征在于,所述将所述目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型,包括:
初始化深度神经网络模型;
将所述目标语音特征分组输入到所述深度神经网络模型中,根据前向传播算法获取深度神经网络模型的输出值,目标语音特征的第i组样本在深度神经网络模型的当前层的输出值用公式表示为ai,l=σ(Wlai,l-1+bl),其中,a为输出值,i表示输入的目标语音特征的第i组样本,l为深度神经网络模型的当前层,σ为激活函数,W为权值,l-1为深度神经网络模型的当前层的上一层,b为偏置;
基于深度神经网络模型的输出值进行误差反传,更新深度神经网络模型各层的权值和偏置,获取所述目标语音特征识别模型,其中,更新权值的计算公式为l为深度神经网络模型的当前层,W为权值,α为迭代步长,m为输入的目标语音特征的样本总数,δi,l为当前层的灵敏度;zi,l=Wlai,l-1+bl,ai,l-1为上一层的输出,T表示矩阵转置运算,表示两个矩阵对应元素相乘的运算(Hadamard积),更新偏置的计算公式为
6.一种语音识别方法,其特征在于,包括:
获取待识别语音数据,所述待识别语音数据与用户标识相关联;
基于所述用户标识查询数据库,获取关联存储的目标声纹特征识别模型和目标语音特征识别模型,所述目标声纹特征识别模型和所述目标语音特征识别模型是采用权利要求1-5任一项所述语音模型训练方法获取的模型;
基于所述待识别语音数据,提取待识别语音特征;
将所述待识别语音特征输入到目标语音特征识别模型,获取第一得分;
将所述待识别语音数据输入到目标声纹特征识别模型中,获取第二得分;
将所述第一得分与预设的第一加权比例相乘,获取第一加权得分,将所述第二得分与预设的第二加权比例相乘,获取第二加权得分,将所述第一加权得分和所述第二加权得分相加,获取目标得分;
若所述目标得分大于预设得分阈值,则确定所述待识别语音数据为所述用户标识对应的目标语音数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810551458.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于低频对数谱的鲁棒特征提取方法
- 下一篇:检测调域值的方法和装置