[发明专利]一种结合I-vector和PLDA的声纹识别方法在审
| 申请号: | 202010767770.4 | 申请日: | 2020-08-03 |
| 公开(公告)号: | CN111883143A | 公开(公告)日: | 2020-11-03 |
| 发明(设计)人: | 汪礼君 | 申请(专利权)人: | 汪礼君 |
| 主分类号: | G10L17/06 | 分类号: | G10L17/06;G10L17/02;G10L17/08;G10L17/20 |
| 代理公司: | 长沙正务联合知识产权代理事务所(普通合伙) 43252 | 代理人: | 郑隽;吴婷 |
| 地址: | 410205 湖南省长沙市高新*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 结合 vector plda 声纹 识别 方法 | ||
1.一种结合I-vector和PLDA的声纹识别方法,其特征在于,所述方法包括:
获取待识别声纹信号,利用谱减法对其进行降噪处理;
对降噪后的待识别声纹信号进行预加重和加窗处理;
基于声纹信号能量对待识别声纹信号进行分帧处理;
利用WS语音特征提取算法提取有效声纹信号帧中的声纹信号特征;
根据所提取出的声纹信号特征,利用I-vector模型提取I-vector特征;
利用PLDA的建模方法,对I-vector特征中的信道信息进行补偿;
利用对数似然比方法进行声纹比对,根据比对结果实现声纹的识别。
2.如权利要求1所述的一种结合I-vector和PLDA的声纹识别方法,其特征在于,所述利用谱减法对待识别声纹信号进行降噪处理,包括:
1)在时域对含噪声纹信号y(t)、待求解的干净声纹信号s(t)以及静音段的声纹信号n(t)进行关系表征:
y(t)=s(t)+n(t)
2)分别对上述三种信号进行傅里叶变换,其对应的短时频谱分别为Y(w),S(w)和N(w),根据语音的特征分布,它们服从均值为0的高斯分布,因此从概率统计学分析可知,它们之间存在如下的平方关系:
|Y(w)|2=|S(w)|2+|N(w)|2+2Re[S(w)N(w)]
3)由于噪声和语音信号之间是没有直接关联的,即噪声不会随着语音信号的改变而改变,也就是S(w)和N(w)是相互独立的,所以Re[S(w)N(w)]=0;
4)S(w)的平方就是语音的功率谱,所以待求解的纯净语音功率谱见下式:
|S(w)|2=|Y(w)|2-|N(w)|2
其中:
Y(w)为含噪声纹信号的短时频谱;
N(w)为静音段声纹信号的短时频谱;
S(w)为纯净声纹信号的短时频谱。
3.如权利要求2所述的一种结合I-vector和PLDA的声纹识别方法,其特征在于,所述对待识别声纹信号进行预加重和加窗处理,包括:
1)利用预加重的函数式提高声纹信号:
H(z)=1-az-1
其中:
z为待识别的声纹信号;
a为预加重系数,本发明将其设为0.912;
2)利用汉明窗对所述声纹信号进行加窗处理,所述汉明窗的时域表达式为:
其中:
n为待识别声纹信号的帧数;
N为待识别声纹信号的总帧数。
4.如权利要求3所述的一种结合I-vector和PLDA的声纹识别方法,其特征在于,所述基于声纹信号能量的声纹信号分帧处理过程为:
针对待识别声纹信号中的若干帧,利用下式计算每一帧的能量:
其中:
x(n)为待识别声纹信号;
N为待识别声纹信号的总帧数;
m表示待识别声纹信号的第m帧;
通过设定不同的能量阈值,依据每一帧的能量将声纹信号分割成重叠帧,其中能量较高的帧部分即为声纹信号中的有效部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汪礼君,未经汪礼君许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010767770.4/1.html,转载请声明来源钻瓜专利网。





