[发明专利]一种基于概率线性鉴别分析模型的说话人聚类方法及系统有效
| 申请号: | 201410459009.9 | 申请日: | 2014-09-10 |
| 公开(公告)号: | CN105469784B | 公开(公告)日: | 2019-01-08 |
| 发明(设计)人: | 杨琳;索宏彬;周若华;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L17/00;G10L17/04 |
| 代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;王敬波 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 概率 线性 鉴别 分析 模型 生成 方法 说话 人聚类 系统 | ||
本发明涉及一种基于概率线性鉴别分析模型的说话人聚类方法及系统,包括:采集一定数量的语音数据作为训练语句,生成概率线性鉴别分析(PLDA)模型;对待聚类说话人语句进行预处理;提取预处理后的待聚类说话人语句的MFCC特征;基于MFCC特征计算所有待聚类说话人语句的总变化量因子;基于生成的PLDA模型计算两两待聚类说话人语句的总变化量因子的PLDA距离;基于PLDA距离确定的密度值选择初始的类别数目和每个类包含的语句;最后通过聚类算法获取最终的类别数目和每个类包含的语句。本方法采用基于总变化量因子PLDA距离使距离测度更加准确;而且本方法基于密度值选择初始类,从而达到稳定的聚类效果。
技术领域
本发明涉及的技术领域包括语音识别、说话人识别、说话人聚类和语音信号处理,具体地说,本发明涉及一种基于概率线性鉴别分析模型的说话人聚类方法及系统。
背景技术
说话人聚类是通过分析多个语音样本,将属于同一说话人的语音样本归为一类,可用于多人对话语音的说话人识别。说话人聚类不同于说话人识别,是一种无监督学习过程。说话人聚类方法通常包括特征提取、距离计算、层次化凝聚聚类算法等过程。
特征提取过程通常提取语音样本中表征说话人信息的声学特征,包括梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)、线性预测倒谱系数(LinearPrediction Cepstrum Coefficient,LPCC)、感知线性预测系数(Perceptual LinearPrediction,PLP)、线谱对系数(Linear Spectrum Pairs,LSP)等。
距离计算方法包括贝叶斯信息准则(Bayesian Information Criteria,BIC)、KL距离(Kullback-Leiber Distance,KLD)、广义似然比距离(Generalized LikelihoodRatio,GLR)、交叉熵似然比距离(Cross Likelihood Ratio,CLR)等。其过程为:首先对每段语音样本建立高斯模型,计算高斯模型间的距离测度,将距离最近的语音样本进行合并形成新的高斯模型,再计算新的高斯模型间的距离测度,再将距离最近的语音样本进行合并形成新的高斯模型,这个过程一直迭代直至满足停止条件。在现有的距离计算方法中,通常采用最大后验估计准则(Maximum a Posterior,MAP)对说话人语音样本建立单高斯或混合高斯模型;在说话人聚类的应用场景中,通过MAP得到的模型受数据量的限制不能准确描述语音样本的分布情况,由此不能很好地表征某类说话人语音的统计特性,从而得到的模型间的距离测度也不够准确。
传统的说话人聚类算法通常采用层次化凝聚聚类算法,类初始值选择不合适会严重影响聚类效果,而且类别数目难以确定。
近年来总变化因子分析的方法在说话人识别领域取得了很好的效果,已成为现在说话人识别系统的主流算法。而概率线性鉴别分析(Probabilistic Linear DiscriminantAnalysis,PLDA)正是对低维的总变化量因子进行建模,在消除信道影响的基础上,更好的学习说话人类内和类间信息,从而能够更准确地表示两个总变化量因子之间的相似度。目前还未有把基于总变化因子的PLDA模型应用于说话人识别领域的方法。
发明内容
本发明的目的在于克服现有说话人聚类方法中存在的语音样本相似度测量不准确问题和初始类难以确定的问题,从而提供一种提高语音样本相似度测量准确性和确定合适的初始类的说话人聚类方法。
为了实现上述目的,本发明提供了概率线性鉴别分析模型生成方法和说话人聚类方法;其中概率线性鉴别分析模型生成方法包括如下步骤:
步骤101),采集一定数量的语音数据作为训练语句,并进行预处理;
步骤102),提取预处理后的训练语句的梅尔频率倒谱系数特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410459009.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:会诊信息处理方法及装置
- 下一篇:一种粉末冶金管扩散消声器





