[发明专利]文本无关的声纹识别系统无效
| 申请号: | 200910053201.7 | 申请日: | 2009-06-17 |
| 公开(公告)号: | CN101923855A | 公开(公告)日: | 2010-12-22 |
| 发明(设计)人: | 王一强;冯瑞;金城;薛向阳 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/22 |
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 包兆宜 |
| 地址: | 20043*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 无关 声纹 识别 系统 | ||
技术领域
本发明属于语音信号处理领域,使用文本无关的说话人识别技术,在身份识别与验证领域具有广阔的应用前景。
背景技术
伴随着信息技术和网络技术的迅猛发展,人们对身份识别技术的需求越来越多,对其安全可靠性的要求也越来越严格。基于传统密码认证的身份识别技术在实际信息网络应用中已经暴露出许多不足之处,而基于生物特征辨别的身份识别技术近年来也日益成熟并在实际应用中展现出极大的优越性。其中,声纹识别技术被认为是一种新的更有效的身份识别技术之一。
声纹是指说话人语音频谱的信息图。由于每个人的发音器官不同,所发出来的声音及其音调各不相同,因此,声纹作为基本特征来实现人的身份识别具有实际的不可替代性和稳定性。声纹识别可以分为文本有关的说话人识别和文本无关的说话人识别两种:前者要求用户根据规定的内容发音,并根据发音的内容建立模型进行匹配,虽然这样可以使得匹配效果较好,但需要用户完全配合,灵活性和容错性欠佳;后者由于不限定用户的发音,所以要建立精确模型的难度较高,识别效果可能不如前者,但相比前者具有更好的适应性和实用性。
发明内容
基于对上述现有技术的分析,本发明的目的在于提出一个准确、高效的说话人识别方法,利用语音信号处理技术,采用语音特征提取算法,为说话人建立较精确的模型,从而构建一个文本无关的说话人声纹识别系统。
本发明的技术方案是:一种文本无关的声纹识别方法,对待识别人进行身份鉴别,其具体步骤如下:
步骤1:采集所述待识别人的语音作为输入信号;
步骤2:对所述输入信号进行预处理和特征值提取;
步骤3:使用特征信息流建立所述待识别人的声学模型;
步骤4:将所述声学模型与语音特征库中的全部声学模型进行匹配计算;
步骤5:将计算所得最为匹配的模型编号返回,以此来确定所述待识别人的具体身份;
其中步骤4中所述语音特征库中的声学模型是采用预先收录的用户客人的语音信号建立的声学模型,其建模步骤为:
步骤41:对所述客人进行语音模型训练,采集所述客人的连续语音作为输入信号;
步骤42:为所述客人的连续语音信号进行预处理并提出其特征值;
步骤43:对所述客人的语音特征建立一个较精确的声学模型;
步骤44:将所述客人的声学模型存储在语音特征库中。
所述语音特征包括分帧、预加重、加窗、快速傅里叶变换FFT、美尔能量和美尔频率倒谱系数MFCC;每个经过建模训练的用户客人都在语音特征库中关联一个相应的语音特征声学模型,并以文件的形式被存储在语音特征库中。
在进行训练建模或声纹识别的过程中,对客人或待识别人两种说话人所说的语言种类和语言内容没有限制和要求,即所述说话人可以使用任何种类的语言,并且内容不做限定。说话人在训练建模或声纹识别的过程中,语言的长短、音量的高低与声纹识别的准确度呈正比关系。
一种依据上述声纹识别方法建立的文本无关的声纹识别系统,包括语音采集设备、声纹识别计算机、人机交互界面及其运行软件;所述语音采集设备采集说话人的语音信号,传送至所述声纹识别计算机进行训练建模或识别匹配,并将建立的声学模型存储在硬盘的语音特征库中,将识别匹配的结果送往人机交互界面以确定说话人身份。
本发明文本无关的声纹识别方法和系统的优点是:(1)文本无关和语言无关性。识别结果不依赖说话人所讲的语言种类和具体内容,只依赖于个体的发音特性,具有良好的易用性和推广价值。(2)识别效率高,结果准确。通常情况下,系统仅需要若干秒的语音信号作为输入,这意味着被识别者仅需要说几个词或者简短的一句话即可,并且系统的识别速度很快,基本上可以在语音结束的同时给出识别结果,其识别精度可以达到相当高的水平,在某次测试实验中(测试人数20),准确率达到了100%。
附图说明
图1是本发明文本无关的声纹识别方法及系统的人机交互界面;
图2是本发明文本无关的声纹识别方法及系统的流程图。
具体实施方式
本发明文本无关的声纹识别方法的具体实现方法和原理是:
首先针对用户集进行说话人模型训练,具体程序为:(1)由外围音频采集设备对用户的说话人语音信号进行采集;(2)对连续语音信号进行预处理并提出其特征值;(3)使用特征信息流建立该用户说话人的声学模型;(4)将该声学模型存储在语音特征库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910053201.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:音频播放方法
- 下一篇:液晶显示器暗场灰阶白平衡自动调节方法及系统





