[发明专利]基于MFCC和BP神经网络的说话人识别系统及方法有效
| 申请号: | 202110266020.3 | 申请日: | 2021-03-11 |
| 公开(公告)号: | CN113053398B | 公开(公告)日: | 2022-09-27 |
| 发明(设计)人: | 高小清;张浩;刘浩;罗挺;刘年 | 申请(专利权)人: | 东风汽车集团股份有限公司 |
| 主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L25/24;G10L25/30 |
| 代理公司: | 武汉开元知识产权代理有限公司 42104 | 代理人: | 李满 |
| 地址: | 430056 湖北省武*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 mfcc bp 神经网络 说话 识别 系统 方法 | ||
本发明公开了基于MFCC和BP神经网络的说话人识别系统,它的语音信号预处理模块依次对语音信号进行分帧、选帧和预加重的信号预处理,语音信号加窗处理模块对预处理后的语音信号进行加窗处理,频谱分析模块对加窗处理后的语音信号进行频谱分析,滤波模块对语音信号各帧频谱的谱线能量进行美尔滤波处理,离散余弦变换模块用于对美尔滤波后的语音信号各帧频谱进行离散余弦变换;BP神经网络模块生成BP神经网络训练数据集,并为每个说话人分别建立对应的BP神经网络,对各个BP神经网络进行训练。本发明提高了说话人识别的可靠性和准确性。
技术领域
本发明涉及语音识别技术领域,具体地指一种基于MFCC和BP 神经网络的说话人识别系统及方法。
背景技术
说话人识别,又称声纹识别,区别于语音识别。语音识别是要 确定语音的语义信息,而说话人识别是利用说话人的语音特征对说话 人的身份进行辨认或确认。
按照不同的应用目的,说话人识别可以分为说话人辨识和说话 人确认两种。说话人辨认用来确定待识别的语音是哪一位注册过的说 话人说的,而说话人确认用来确定待识别的语音是不是说话人所宣称 的那个人说的。本专利属于说话人辨认一类。
根据识别方式,说话人识别分为与文本有关和与文本无关两种 方式。前者要求在识别时,说话人提供与训练语音文本相同的关键词 串或者语句,而后者则没有这样的要求,说话人说话内容是任意的。 本专利属于与文本无关的说话人识别。
日常生活中,人们能根据语音判定出是哪个人在说话,这说明 每个人的语音有区别于其他人的特征。MFCC参数可以很好的描述这 个特征。MFCC(Mel Frequency CepstrumCoefficient,美尔频率倒谱 系数),Mel(美尔)是主观音高的单位,而Hz(赫兹)则是客观音高的单位。Mel频率是基于人耳听觉特性提出来的,它与赫兹频率是 非线性关系。美尔频率倒谱系数是利用它们之间的这种关系,计算得 到的倒谱特征。
专利《基于情感补偿的声纹识别方法》(专利号:CN101226742A) 公开了一种基于情感补偿的声纹识别方法,所提出的情感补偿包括情 感检测、特征补偿、情感拓展三块,拟依据情感检测技术计算语音情 感因子,分别从特征与模型两个层面对情感变化所引起的语音变化进 行补偿,最终提高声纹识别技术对情感变化的鲁棒性。
该专利未通过分析语音发生机理和语音特征,对语音信号进行 选帧处理,从而减少训练样本量。该专利未建立识别结果的可靠性指 标。
发明内容
本发明的目的就是要提供一种基于MFCC和BP神经网络的说话 人识别系统及方法,本发明通过分析语音发生机理和语音特征,提取 了更有效的能反映个体声道差异的训练样本,避免了训练样本量过大 导致的BP神经网络训练时间过长乃至无法进行进行训练的弊端。
为实现此目的,本发明所设计的基于MFCC和BP神经网络的说 话人识别系统,它包括语音信号预处理模块、语音信号加窗处理模块、 频谱分析模块、滤波模块、离散余弦变换模块、BP神经网络模块和 实际场景说话人识别模块,所述语音信号预处理模块用于依次对语音 信号进行分帧、选帧和预加重的信号预处理,语音信号加窗处理模块 用于对预处理后的语音信号进行加窗处理,频谱分析模块用于对加窗 处理后的语音信号进行频谱分析得到语音信号各帧的频谱,滤波模块 用于对语音信号各帧频谱的谱线能量进行美尔滤波处理,离散余弦变 换模块用于对美尔滤波后的语音信号各帧频谱进行离散余弦变换得 到语音信号的美尔频率倒谱系数;
BP神经网络模块用于将所有需要身份识别的说话人语音数据分 为训练集和测试集,利用训练集中说话人语音数据的美尔频率倒谱系 数生成BP神经网络训练数据集,并为每个说话人分别建立对应的BP 神经网络,利用BP神经网络训练集对各个BP神经网络进行训练;
实际场景说话人识别模块用于将实际场景中采集到的语音信号 的美尔频率倒谱系数输入到已完成训练的各个对应BP神经网络中进 行实际场景说话人识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东风汽车集团股份有限公司,未经东风汽车集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110266020.3/2.html,转载请声明来源钻瓜专利网。





