[发明专利]一种语音和唇语相融合的身份认证方法在审
申请号: | 201910603999.1 | 申请日: | 2019-07-05 |
公开(公告)号: | CN110364163A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 张新曼;申沅均;陈奕宇;公维勇;王寅;尚东鹏;许学斌 | 申请(专利权)人: | 西安交通大学;广东顺德西安交通大学研究院 |
主分类号: | G10L15/25 | 分类号: | G10L15/25;G10L25/24;G10L15/06;G10L25/45;G10L25/51;G10L17/00 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 安彦彦 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 身份认证 语音 融合 认证成功 向量特征 倒频谱 身份认证系统 极限学习机 并行策略 认证领域 认证失败 生物特征 输出结果 信息安全 训练样本 多输出 强健性 提示符 多模 复数 向量 输出 认证 | ||
1.一种语音和唇语相融合的身份认证方法,其特征在于,包括以下步骤:
1)提取待认证的语音倒频谱特征和唇语特征;
2)采用并行策略融合所述语音倒频谱特征和所述唇语特征,得到复向量特征;
3)利用复向量特征作为训练样本训练复数极限学习机的多输入多输出模型,根据输出的分布及其取值判断是否认证成功;
若输出结果向量中的最大值与设定提示符一致且最大值大于设定阈值,则认证成功;否则,认证失败。
2.根据权利要求1所述的语音和唇语相融合的身份认证方法,其特征在于,步骤1)中语音倒频谱特征的提取方法具体过程为:
利用双门限法对语音信号进行分段,并采用梅尔滤波器提取语音倒频谱特征。
3.根据权利要求2所述的语音和唇语相融合的身份认证方法,其特征在于,利用双门限法对语音信号进行分段的具体过程为:
用交叠分段的方法对语音信号进行分帧,得到短时序列;
用窗函数乘以短时序列,形成短时加窗语音信号;
利用短时加窗语音信号的短时能量和短时过零率截出语音段的起止点,起止点之间的语音即为有效语音段。
4.根据权利要求3所述的语音和唇语相融合的身份认证方法,其特征在于,利用短时加窗语音信号的短时能量和短时过零率截出有效语音段的起止点的具体过程包括以下步骤:
1)计算每帧音频的短时能量和短时过零率,计算公式如下所示,短时能量为
短时过零率为
其中,xn(m)代表第n帧的第m个序列值,sgn[]代表符号函数;
2)根据语音能量的轮廓选取一个高门限T2,进行粗判断;语音起止点位于T2与短时能量包络交点N3和N4所对应的时间间隔之外,N3作为初判起点,N4作为初判终点;
3)根据背景噪声的能量选取一个低门限T1,从初判起点N3往左,从初判终点N4往右搜索,分别找到第一次与低门限T1相交的两个点N2和N5,于是N2至N5段就是由短时能量确定的语音段;
4)以短时平均过零率为基准,从N2点往左和N5点往右搜索,找到短时平均过零率低于阈值T3的两点N1和N6,即为语音段的起止点。
5.根据权利要求3所述的语音和唇语相融合的身份认证方法,其特征在于,采用梅尔滤波器提取语音倒频谱特征的具体过程为:
1)对每帧短时序列进行快速傅里叶变换,计算公式如下:
计算FFT后每帧序列的谱线能量,计算公式如下:
En(k)=[Xn(k)]2 (4);
2)采用Mel复频率将语音频率划分为若干个三角形的带通滤波器序列,得到Mel滤波器组:
语音频率划分成一系列三角形的带通滤波器序列,其传递函数如下:
其中,f(m)为三角形的带通滤波器序列,0≤m<M,M为滤波器组数,fl和fh分别是滤波器组的最高和最低频率,fs为采样频率,N为FFT变换的序列点数,
3)通过Mel滤波器组,计算频域中每帧的能量谱:
4)通过离散余弦变换将每帧的能量谱从频域重新变换到时域,得到复倒谱系数:
其中,i为MFCC的系统阶数,取值范围为12~16;MFCC为一个矩阵,帧数×阶数,每帧的特征为一个向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学;广东顺德西安交通大学研究院,未经西安交通大学;广东顺德西安交通大学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910603999.1/1.html,转载请声明来源钻瓜专利网。