[发明专利]一种基于自动编码深度置信网络的高质量说话人识别方法有效
申请号: | 201710088300.3 | 申请日: | 2017-02-17 |
公开(公告)号: | CN107039036B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 李燕萍;刘俊坤;凌云志 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/07;G10L15/08;G10L15/16;G10L17/04;G10L17/14;G10L17/18 |
代理公司: | 江苏海越律师事务所 32402 | 代理人: | 唐小红 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自动 编码 深度 置信 网络 质量 说话 识别 方法 | ||
本发明公开了一种基于自动编码深度置信网络的高质量说话人识别方法,包括模型训练和说话人识别:首先对说话人语音进行预处理,提取MFCC特征参数,为不同说话人特征参数进行标记。将多名说话人特征参数输入深度置信网络进行网络训练学习,得到自动编码深度置信网络。利用训练好的自动编码深度置信网络分别对每个说话人提取的特征参数进行编码重构,输出数据作为矢量量化模型的输入,进行矢量量化模型训练。说话人识别阶段,说话人的语音特征参数经自动编码深度置信网络编码重构,输入矢量量化模型进行识别。通过深度置信网络对说话人语音特征的编码重构,提取说话人个性特征的同时,可以过滤语音中的噪声,提高了说话人识别准确性和系统鲁棒性。
技术领域
本发明涉及信号处理、机器学习和模式识别领域,尤其涉及一种基于自动编码深度置信网络的高质量说话人识别方法别方法。
背景技术
说话人识别又称声纹识别,是一种通过对说话人的语音进行处理和分析,自动鉴别说话人身份的技术。说话人识别是根据语音波形中反映说话人生理和行为个性特征的语音参数来区分说话人的身份。说话人识别技术与其他生物识别技术相比,具有采集设备简单、认证方式友好、易于扩展等优势,在军事安全系统、银行证券系统以及司法鉴定系统等各个领域有广泛的应用。人在说话时,由于声道形状的不断变化,而发出不同的语音。声道是人体自声门、声带之后最重要的、对发音起决定性作用的器官。声道特征在一定程度上可以反映说话人的个性特征,可以采用声道特征来对说话人进行识别。梅尔倒谱系数(Mel-frequencyCepstralCoefficients,MFCC)是基于听觉系统的临界带效应,在Mel标度频率域提取的一种倒谱声道特征参数,它充分利用人耳这种特殊感知特征,具有较强的鲁棒性,得到广泛应用。说话人识别中学习模型是识别的核心,在说话人语音数据充分时,概率统计模型可以很好的拟合说话人特征,在说话人语音数据时长较短时,往往得不到较准确的模型估计参数,说话人语音时长不知时,矢量量化(VectorQuantization,VQ)可以得到较好的识别效果。
基于矢量量化的说话人识别方法是基于这样的假设,不同说话人由于个性特征使得语音特征矢量分布不同,从而这些信息可以对不同说话人区分。矢量量化是基于失真最小化原则,试图根据每个说话人的训练数据建立码本模型,然后对这一分布进行描述。识别时,提取待识别语音中特征矢量,经过每个码本矢量量化,求得平均量化误差,判别最小量化误差的码本就是说话人识别身份。矢量量化中比较成熟和常用的码本训练方法有LBG算法等。单纯的基于矢量量化的说话人识别方法存在以下几个缺陷:(1)说话人数量较多,且每人训练语音较少时,系统识别率变差。(2)干净语音下训练的模型,对带噪语音识别率极差,鲁棒性弱。因此,获取比较健壮的输入特征对整个系统识别率至关重要。
2006年,Hinton等人提出深度学习的概念,深度置信网络是由多层受限玻尔兹曼机(RBM)堆叠构成,采用贪婪逐层训练学习算法,通过逐层预训练和整体微调的方法,够充分挖掘数据中的潜在特征,克服传统多层神经网络易陷入局部最优解、需要大量数据标记等问题。深度置信网络被证明对自然界中的实际信号建模,比传统浅层结构的建模方法强。语音信号的产生和感知是一个复杂的过程,并且具有多层次和深层次处理结构。利用深度置信网络多层非线性变换可以捕捉到语音信号中的结构化信息和高层信息。说话人训练数据经过深度置信网络得到的矢量特征,可以更好地描述说话人个性特征矢量分布。
发明内容
本发明的目的在于利用深度置信网络的多层非线性结构,对说话人语音数据特征向量进行特征挖掘和数据重构,经过深度置信网络输出特征矢量作为矢量量化模型的输入数据,提升说话人识别系统的识别率和鲁棒性。
本发明的目的可以通过以下技术方案来实现:本发明公开了一种基于自动编码深度置信网络的高质量说话人识别方法,包括说话人模型训练阶段和说话人识别两个步骤,具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710088300.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型防菌培养皿
- 下一篇:一种大规模细胞培养多联袋