[发明专利]一种基于深浅层特征融合的鲁棒性说话人识别方法在审

专利信息
申请号: 202010589695.7 申请日: 2020-06-24
公开(公告)号: CN111755012A 公开(公告)日: 2020-10-09
发明(设计)人: 余帆;曾春艳;马超峰;陈新凯 申请(专利权)人: 湖北工业大学
主分类号: G10L17/00 分类号: G10L17/00;G10L17/02;G10L17/04;G10L17/06;G10L17/18;G10L25/24;G10L25/45
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 鲁力
地址: 430068 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深浅 特征 融合 鲁棒性 说话 识别 方法
【说明书】:

发明一种基于基于深浅层特征融合的鲁棒性说话人识别方法,分为五部分:1)MFCC特征提取;2)浅层说话人特征(GSV)提取;3)深层说话人特征(DMFCC)提取;4)特征融合和SVM决策;5)“投票法”联合判决。与传统说话人识别相比,本发明的说话人识别方法在背景噪声的环境下能够有效提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,提高了相应说话人识别产品的竞争力。

技术领域

本发明属于说话人识别技术领域,特别指一种基于深浅层特征融合的鲁棒性说话人识别方法。

背景技术

说话人识别,是一种基于语音信息实现的特殊生物识别技术。经过几十年的发展,目前无噪声干扰条件下说话人识别技术已经较为成熟。目前主流的方法有GMM-UBM、GMM-SVM和i-vector。然而在实际应用环境下,由于背景噪声和信道噪声的存在,说话人识别算法性能会明显下降。因此,如何提高现有说话人识别系统的噪声鲁棒性成为近年来该领域的研究热点。

为解决这一问题,研究人员已在语音信号处理的不同层面做出尝试。相关文献证实,在信号处理领域的相关识别算法能否取得好的效果取决于噪声的类型和信噪比的大小。对于语音来说,特征真实的概率分布依赖于特定的说话人并且是多模态的。然而,在实际应用场景中,信道的不匹配和加性噪声等因素会破坏特征真实的概率分布。相关研究通过将具有噪声鲁棒性的语音特征与倒谱均值方差归一化等技术结合,在一定条件下可以调整特征的概率分布,达到降低噪声对系统性能影响的目的。特征弯折算法(featurewarping)是将训练和测试语音的特征向量的分布映射到统一的概率分布中,经过映射后的特征向量的每一维都服从标准正态分布,在一定程度上补偿了信道不匹配和加性噪声对特征分布造成的影响。但是,对基于不同语音特征的识别算法进行比较可以发现,识别性能是否改善与噪声的类型和信噪比也是紧密相关的。当环境中含有少量噪声时,基于特征域的相关算法考虑到噪声对特征分布特性的影响,通过分布映射等方式调整特征分布可以提高系统的噪声鲁棒性。但是,随着信噪比的减小,噪声影响特征分布特性的同时,也会改变语音中说话人相关的信息,系统性能会急剧下降,通过调整特征分布带来的系统性能上的提升就显得微不足道。

近年来,随着机器学习算法性能的提升和计算机存储、计算能力的提高,深度神经网络(Deep Neural Network,DNN)被应用到说话人识别领域中并取得了显著的效果。因为人类语音信号的产生和感知过程就是一个复杂的过程,而且在生物学上是具有明显的多层次或深层次处理结构。所以,对于语音这种复杂信号,传统的方法无法充分利用语音本身已包含的更多个性化信息,因此可能导致计算机的辨识能力与人类本身对语言的直觉之间存在很大的差别。比如相同的语音片段中词语的顺序不同有可能导致音素连接处发音出现变化,或者不同的说话人因为口音或者方言问题使得说话人表达习惯会有所不同,或者完全不同的内容却有相近发音,导致系统无法识别。因此,利用DNN深层次的非线性变换来捕捉说话人特征是目前非常活跃的研究领域。

上述几种不同的说话人识别方法因其各自特殊的优势以及很好地识别性能而得到广泛的认可和应用,但仍存在不足。高斯均值超矢量(GSV)是由GMM-UBM系统的说话人模型的均值构建产生,有效地降低了噪声的影响,但同时也削弱了能代表说话人个性的特性成分。因此,尽管其相对于MFCC特征更为凝练,但它仍是一种浅层、物理层面的声学特征,难以表征语音段的高层信息。而基于深度神经网络的说话人识别中添加了具有区分性的信息,但并未涉及物理层的最直观的声学特性。由于深、浅层特征从不同角度侧面反映说话人信息,希望以有效的融合方式得到更具鲁棒性的特征表达。因此本发明就深层特征和浅层特征进行融合研究,将经过深度神经网络处理过的分块MFCC特征作为深层特征,将高斯均值超矢量(GSV)作为浅层特征,然后对两种特征向量进行融合,得到包含更多信息的、更具鲁棒性的说话人特征,提升说话人识别系统的性能。

发明内容

本发明的上述技术问题主要是通过下述技术方案得以解决的:

一种基于深浅层特征融合的鲁棒性说话人识别方法,其特征在于,包括

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010589695.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top