[发明专利]语音信号处理方法、语音和声纹识别方法及其装置有效
申请号: | 201210173657.9 | 申请日: | 2012-05-30 |
公开(公告)号: | CN102723081A | 公开(公告)日: | 2012-10-10 |
发明(设计)人: | 林其光 | 申请(专利权)人: | 林其灿 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L15/02;G10L21/02 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 林锦辉 |
地址: | 214125 江苏省无锡市滨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 信号 处理 方法 声纹 识别 及其 装置 | ||
技术领域
本发明涉及语音识别和声纹识别技术,更为具体地,涉及一种基于频谱增强的语音信号处理方法、语音识别方法及装置以及基于频谱增强和倒频系数选择性均值归一化的声纹识别方法及装置。
背景技术
随着现代科学和计算机技术的发展,在进行人机信息交互时,需要一种方便且快捷的方式,由此提出了语音识别技术。利用语音识别技术,可以准确地识别人们发出的语音信号,并且将所识别出的语音信号转换为机器的文本输入,由此进行随后的信息处理。
在现有的语音识别系统中,如图1所示,通常,首先通过比如麦克风等的语音输入设备来输入音频信号(即,音频波形)(步骤S110)。然后,对所输入的音频信号进行分帧处理(在短时阶段,假设语音信号为平稳的),即根据音频信号的短时平稳特性,对所输入的音频信号进行短时音框化(例如,采用汉明窗对所输入的音频信号进行处理),从而以帧为单位,将所输入的音频信号处理为多帧音频信号,其中相邻两帧之间存在重叠,通常语音帧长被设置为25ms,两帧之间的重叠部分时长为15ms(步骤S120)。
接着,针对每帧音频信号进行傅立叶变换计算以得到短时频谱(步骤S130),并且利用梅尔频率将所述短时频谱转换成滤波器组输出(步骤S140)。
然后,对所述滤波器组输出进行离散余弦变换,获得倒谱系数(步骤S150),并对所获得的倒谱系数进行均值归一化计算,得到与该短时语音帧对应的前端特征向量(S160)。
在步骤S170,判断是否针对所有帧得到对应的前端特征向量。如果没有,则返回到步骤S130。否则,禁止到步骤S180。
在训练阶段,利用所得到的前端特征向量训练依赖于上下文的子音素模型(或者称为三音素模型);然后,在测试阶段,与声学模型、语言模型和字典一起识别用户输入的语音信号(S180)。
在现有应用中,除了识别用户所说语音信号的内容之外,有时还需要识别用户本身的身份(即,说话人的身份),这通常也称为声纹识别。声纹识别的过程与上述语音识别过程基本类似。不同之处在于,在声纹识别的训练阶段,获得的前端特征向量是用来为每个说话人训练声纹模型;一旦获得训练好的声纹模型,该声纹模型就可用来识别说话人的身份。
无论是语音识别技术(即电脑自动识别说话人所说的内容)还是声纹识别(即电脑自动识别说话人的身份)都有缺陷,以至于各自的识别率都还不能达到百分之百。最重要的缺陷在于抗噪音干扰性不强,尤其是当干扰噪音的频谱特性与语音相似时。不少语音识别或声纹识别的算法在安静的实验室状况下,识别准确率都相当高。但一旦在实际环境下使用时(real-world deployment),由于总是存在周围噪音,识别率因而明显下降,有时甚至低于50%。频谱相减(Spectrum subtraction)是一种抗噪音干扰的技术,试验证明,它能够有效地提高噪音环境下的识别率。另外信道失真(channel distortion),也就是训练时所用的通信信道与测试时所用的通信信道不匹配(mismatch),也会严重地影响识别率。
对语音识别来说,其技术缺陷还包括(1)处理说话人之间的差异的能力有限(如方言,男女声,大人小孩)和(2)有无说话内容的限制(如以句法为基础的指令识别还是不受限制的听写-dictation)。另一方面,声纹识别的其他缺陷包括所说的内容对识别率有影响。人们通常是视具体的应用,采用固定文本(text-dependent),提示文本(text-prompted),或可变文本(text-independent)来解决这个问题。
发明内容
鉴于上述问题,本发明的一个目的是提供一种基于频谱增强的语音信号处理方法及装置。
本发明的另一目的是提供一种基于频谱增强的语音信号处理方法及装置,以及基于频谱增强和倒频系数选择性均值归一化的声纹识别方法及装置。
根据本发明的一个方面,提供了一种语音信号处理方法,包括:对所获取的语音信号进行数字化;将数字化后的语音信号加窗分帧为多个短时语音帧;针对每个短时语音帧进行下述处理:进行傅立叶变换,得到该短时语音帧的第一频谱信号;基于所得到的第一频谱信号,导出至少一个作为该第一频谱信号的变型的衍生频谱信号;对第一频谱信号和至少一个衍生频谱信号进行离散余弦变换,计算各自的倒谱系数向量;以及基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量,导出每个短时语音帧的倒谱系数向量,作为与该短时语音帧对应的前端特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于林其灿,未经林其灿许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210173657.9/2.html,转载请声明来源钻瓜专利网。