[发明专利]基于高斯混合模型的声纹识别方法及系统无效
| 申请号: | 201110267690.3 | 申请日: | 2011-09-12 |
| 公开(公告)号: | CN102324232A | 公开(公告)日: | 2012-01-18 |
| 发明(设计)人: | 霍春宝;张健;赵立辉;刘春玲;张彩娟 | 申请(专利权)人: | 辽宁工业大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06 |
| 代理公司: | 锦州辽西专利事务所 21225 | 代理人: | 李辉 |
| 地址: | 121000 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 混合 模型 声纹 识别 方法 系统 | ||
技术领域
本发明属于语音信号处理装置,涉及到一种用说话人的语音信号来辨识说话人身份的基于高斯混合模型的声纹识别方法及系统。
背景技术
近年来,随着信息处理与人工智能技术的广泛应用,以及人们对快速有效身份验证的迫切要求,传统密码认证的身份识别已经逐渐失去了他的地位,而在生物识别领域中,基于说话人语音的身份识别技术却受到了越来越多的人的青睐。
由于每个人的发音器官的生理差异以及后天形成的行为差异导致发音方式和说话习惯各不相同,因此用说话人的语音来识别身份成为可能。声纹识别除了具有不会遗忘、不需记忆、使用方便等优点外,还具有下列特性:首先,它的认证方式易于接受,使用的“密码”为声音,开口即得;其次,识别文本的内容可以随机,不易窃取,安全性能比较高;第三,识别使用的终端设备为麦克风或电话,成本低廉且易于和现有通信系统相结合。因此,声纹识别的应用前景非常广阔:在经济活动中,可以实现各银行的汇款、余额查询、转账等;在保密安全中,可以用指定的声音检查秘密场所的人员,其只响应特定说话人;在司法鉴定中,可以根据即时录音判断疑犯中作案者的真实身份;在生物医学中,可以使该系统只响应患者的命令,从而实现对使用者假肢的控制。
声纹识别的关键技术主要是语音信号特征参数提取和模型匹配。语音信号特征参数大体可分为两类:一类是主要体现说话人发音器官生理特性的低层特征,如根据人耳对不同频率的语音信号的敏感程度提取的梅尔频率倒谱系数(MFCC),根据语音信号的全极点模型得到的线性预测倒谱系数(LPCC)等;另一类是主要体现说话人用语习惯、发音特点的高层特征,如反映说话人语音抑扬顿挫的韵律特征(Prosodic Features)、反映说话人习惯用语中音素统计规律的音素特征(Phone Features)等。LPCC是基于语音信号的发音模型建立的,容易受到假设模型的影响,高层特征虽然有些文献中使用,但识别率并不是很高。
针对各种语音信号特征参数而提出的模型匹配方法主要有动态时间规整(DTW)法、矢量量化(VQ)法、高斯混合模型(GMM)法、人工神经网络(ANN)法等。其中DTW模型依赖于参数的时间顺序,实时性能较差,适合基于孤立字(词)的说话人识别;在VQ模型中,聚类的矢量仅用一个中心来表示,并且各个码本对距离的贡献相等,因此在语音信号很短的情况下,识别率会急剧下降。在ANN模型中,对最佳模型拓扑结构的设计的训练算法并不一定能保证收敛,而且会存在过学习的问题。GMM是在说话人的语音信号中提取出反映说话人个性的特征参数,并以此为基础根据概率统计特性建立相应的数学模型,从而有效的反映说话人的语音信号特征参数在特征空间的分布。而且其概率密度函数比较常见,模型中的参数易于估计和训练。但是在传统基于GMM的声纹识别中,模型初始参数的选取比较随机,这严重影响了系统的识别率。
发明内容
本发明要解决的技术问题是提出一种基于高斯混合模型的声纹识别方法及系统。该方法采用了基于概率统计的高斯混合模型,能很好的反映说话人的语音在特征空间的分布,其概率密度函数比较常见,模型中的参数易于估计和训练,而且具有良好识别性能和抗噪能力。
一种基于高斯混合模型的声纹识别方法,具体步骤如下:
1、语音信号的采集:以程控交换综合实验箱的话机作为采集语音信号的终端设备,通过语音卡采集语音信号;
2、语音信号的预处理:通过计算机将提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率法相结合的端点检测法;预加重,加重系数的范围为0.90~1.00;
3、语音信号特征参数提取:采用梅尔频率倒谱系数(MFCC),MFCC的阶数通常取为12~16;
4、模型训练:采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM),模型的参数初始化方法选用k-means算法;
5、声纹辨识:通过将采集到的待识别语音信号特征参数与库中通过上述步骤1、2、3、4已建立的说话人语音模型进行比较,并根据最大后验概法进行判断,若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则认为识别出说话人。
上述的语音信号特征参数提取步骤如下:
(1) 将预处理后的语音信号进行短时傅里叶变换(DFT)得到其频谱X(k),语音信号的DFT公式为:
(1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工业大学,未经辽宁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110267690.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:内端面铣床
- 下一篇:铅酸电池的铅粒铸造机





