[发明专利]一种基于竞争神经网络的鲁棒说话人识别方法有效
申请号: | 201810075745.2 | 申请日: | 2018-01-26 |
公开(公告)号: | CN107993664B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 于泓;马占宇;司中威;郭军 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/20;G10L21/0208;G10L25/24;G10L25/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 竞争 神经网络 说话 识别 方法 | ||
本发明实施例公开了一种基于竞争神经网络的鲁棒说话人识别方法。该方法利用竞争神经网络提取具有噪声不变性的声学特征,并利用该特征进行基于GMM‑UBM模型的说话人识别系统的训练,包括如下步骤:构建包含两个级连的编码网络与区分网络的竞争神经网络,并利用其中的编码网络提取噪声不变特征,然后利用提取的特征实现基于GMM‑UBM模型的说话人。在竞争网络训练时编码网络与区分网络分别训练,训练编码网络时所有输入采用相同的干净语音标签,训练区分网络时利用训练语音的噪声类型作为训练标签,利用本发明实施例,能够提高文本无关的说话人鉴别率,具有很大的实用价值。
技术领域
本发明属于声纹识别领域着重描述了一种基于竞争神经网络的鲁棒说话人识别方法。
背景技术
说话人识别是计算机利用语音片段中所包含的能够反映说话人特征的信息来鉴定说话人身份的技术,该技术在信息安全,远程身份认证等领域具有非常重要的研究及应用价值。
在实际的应用中环境噪声的存在会极大的降低说话人识别的准确率,常用的语音增强的方法虽然能够去除语音中的噪声,但是在去噪的同时也会破坏语音中与说话人相关的信息,并不适应说话人识别的任务。因此从含有噪声的语音中直接提取一种在不同噪声环境下具有不变性的声学特征,是一种更适合说话人识别任务的方案。
发明内容
本发明所描述的是一种利用竞争神经网络提取具有噪声不变性声学特征并利用该特征构建说话人识别系统的方法。竞争神经网络包含编码网络与区分网络两个子网络,利用编码网络提取噪声不变性特征,利用区分网络保持提取特征的可区分性,通过对两个子网络的交替竞争训练后即可利用编码子网络提取噪声不变特征。利用该特征进行说话人识别系统的设计可以极大的提高系统在噪声环境下识别的准确率。
为了解决环境噪声影响说话人识别准确率的问题,本发明提供了一种基于竞争神经网络的鲁棒说话人识别方法。
该方法利用竞争神经网络提取具有噪声不变性的声学特征,并利用该特征进行基于GMM-UBM模型的说话人识别系统的训练,下面将结合附图对本发明的具体实施步骤介绍如下:
一.声学特征提取竞争神经网络构建步骤:
图1为用来进行噪声不变声学特征提取的神经网络结构图。声学特征提取的竞争网络结构为:包含两个级联的子网络,下层的编码网络(EN)与上层的区分性网络(DN),编码网络的输出作为最终需要提取的瓶颈特征。如图1所示,下层编码网络包含级联的一个输入层与三个全连接隐藏层E1、E2,E3,三个隐藏层E1、E2、E3所对应的节点数分别为1024、1024、128,E1、E2的激活函数为softplus函数,即f(x)=log(ex+1),E3的激活函数为双曲正切函数,上层区分性网络包含两个级联的全连接隐藏层D1、D2与一个softmax输出层D3,D1、D2节点数分别为1024、1024,激活函数为sigmoid函数,E3的输出将作为D1的输入,D3包括N+1个节点,分别表示N种噪声类型与干净语音。
二.竞争神经网络训练步骤:
11帧连续的梅尔倒谱系数特征被用来作为神经网络的输入训练特征。用来进行网络训练时编码网络与区分性网络采用不同的目标标签进行交替训练,当训练区分性网络时输入特征中包含的噪声类型,作为训练标签,即为[1,0,…0]、[0,1,0,…]、[0,0,1,0,…]等,不同位置的“1”表示不同的噪声类型。
当训练编码网络时所有的输入采用相同的干净语音标签,即此时所有输入特征所对应的目标标签都为[1,0,0,…0]。编码网络的参数θE与区分网络的参数θD利用随机梯度下降法进行更新,更新θE时θD保持不变,更新θD时θE保持不变,更新参数θE与θD时所用的损失函数分别为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810075745.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型蜂鸣器
- 下一篇:音频信号解码器中改进的频带扩展