[发明专利]一种短语音说话人识别方法和装置有效
| 申请号: | 201711472767.4 | 申请日: | 2017-12-29 |
| 公开(公告)号: | CN108281146B | 公开(公告)日: | 2020-11-13 |
| 发明(设计)人: | 苏鹏程;张一凡 | 申请(专利权)人: | 歌尔科技有限公司 |
| 主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/08;G10L25/24 |
| 代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝;吴昊 |
| 地址: | 266104 山东省青岛*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 说话 识别 方法 装置 | ||
1.一种短语音说话人识别方法,其特征在于,该方法包括:
对输入的训练短语音信号预处理后,提取梅尔频率倒谱系数作为训练特征向量,利用自适应核可能性模糊C均值聚类算法进行聚类分析建立说话人语音参考模型;
对输入的测试短语音信号预处理后,提取梅尔频率倒谱系数作为测试特征向量,计算所述测试特征向量与所述说话人语音参考模型之间的距离,并根据所述距离识别短语音说话人的身份;
其中,所述利用自适应核可能性模糊C均值聚类算法进行聚类分析建立说话人语音参考模型具体包括下列步骤:
步骤S0,计算初始聚类中心V0;
步骤S1,根据公式(2)和(3)计算高斯核函数的带宽参数σ:
步骤S2,根据预定公式计算γi;
步骤S3,令t=1;
步骤S4,根据公式(4)和(5),计算在第t次迭代时高斯核函数的带宽参数σt:
步骤S5,根据第t-1次的聚类中心Vt-1和下列公式(6)计算第t次第k个特征向量对第i类的隶属度Ut:
根据第t-1次的聚类中心Vt-1和下列公式(7)计算第t次集合xk属于第i类的典型值Tt:
根据第t-1次的聚类中心Vt-1和Ut、Tt、下列公式(8)计算第t次的聚类中心Vt:
步骤S6,判断当||Ut-Ut-1||≤ε或者||Vt-Vt-1||≤ε时,终止迭代并输出对应的Ut、Tt、Vt;其中,ε为预设的最大误差;
步骤S7,令t=t+1,
步骤S8,判断当赋值后的t大于最大迭代次数时,终止迭代并输出对应的Ut、Tt、Vt;否则,返回步骤S4继续执行直至终止迭代。
2.根据权利要求1所述的短语音说话人识别方法,其特征在于,提取梅尔频率倒谱系数作为训练特征向量包括:
对预处理后的训练短语音信号作快速傅里叶变换,获得频谱分布信息;
对训练短语音信号的频谱取绝对值获得幅度谱;
将幅度谱通过一个有Q个高斯带通滤波器的滤波器组,并计算每个高斯带通滤波器输出的对数;
将每个高斯带通滤波器的对数能量带入离散余弦变换,提取得到梅尔频率倒谱系数。
3.根据权利要求1所述的短语音说话人识别方法,其特征在于,利用自适应核可能性模糊C均值聚类算法进行聚类分析建立说话人语音参考模型包括:
将得到的包含N个训练特征向量的集合{xk}划分为C个子集,其中,k=1,…,N,xk为M维向量,1CN,
求出每个子集的聚类中心,使得下列目标函数最小:
且满足下列约束条件一和二:
条件一,条件二,
公式(1)中,uik∈U表示第k个特征向量对第i类的隶属度;tik∈T表示集合xk属于第i类的典型值;m,η>1为模糊加权指数;a,b>0为权重系数;vi∈V为聚类中心;系数γi>0。
4.根据权利要求1所述的短语音说话人识别方法,其特征在于,计算所述测试特征向量与所述说话人语音参考模型之间的距离包括:
利用训练出的说话人语音参考模型的码本对测试特征向量进行量化,并计算平均量化误差,将算出的平均量化误差作为测试特征向量与说话人语音参考模型之间的距离;
当测试特征向量与说话人语音参考模型之间的距离小于或者等于距离阈值时,则确定短语音的说话人与说话人语音参考模型指示的参考说话人为同一人。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于歌尔科技有限公司,未经歌尔科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711472767.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音识别方法和系统
- 下一篇:基于LPCC和ADTW的声纹识别系统





