[发明专利]一种基于因子分析的说话人分段聚类方法及系统在审

申请号：	201710395341.7	申请日：	2017-05-27
公开（公告）号：	CN107342077A	公开（公告）日：	2017-11-10
发明（设计）人：	计哲;颜永红;安茂波;陈燕妮;苗权;李鹏;张震;万辛	申请（专利权）人：	国家计算机网络与信息安全管理中心
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/07;G10L15/14;G10L17/04;G10L17/14
代理公司：	北京君尚知识产权代理事务所(普通合伙)11200	代理人：	邱晓锋
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于因子分析说话分段方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及的领域包括说话人识别、语音识别以及语音信号处理，具体的说，本发明采用的是一种基于因子分析的说话人分段聚类方法及系统。

背景技术

说话人分段聚类技术研究就是自动进行“何人何时说话”分类标注的一种技术，又叫说话人日志。其任务就是把连续的语音流分割成单一说话人的语音片段，然后对相同说话人的语音片段进行聚类，附上相对区别性的标记。

它实际上包含了两个过程：说话人分割，即检测说话人身份发生变化的点；说话人聚类，即将说话人身份相同的片段聚成一类。其中，说话人聚类是一个无监督的过程，因为没有音频文档中的说话人数目、说话人身份以及声学条件等先验知识。

目前主流的说话人分段聚类系统，根据聚类方式的不同分为基于似然估计的系统、基于说话人特性的系统、基于距离模型的系统。在基于说话人特性的系统中基于因子分析的说话人分段聚类系统是目前主流的分段系统。

但是基于总变化因子分析的说话人分段聚类系统，在切割之后的语音片段较短的情况下，提取的总变化因子包含的说话人信息少，且模型估计不准确，偏差较大。在此基础上直接进行打分会影响系统的性能。

发明内容

本发明的目的是为了解决现有的基于因子分析系统分段之后的语音片段较短，提取的总变化因子包含的说话人信息少，且不确定性大的问题，从而提出了一种基于因子分析的说话人分段聚类方法及系统，将总变化因子的不确定性进行传递，引入到高斯概率线性判别分析模型进行训练和打分，从而提升短时语音片段上的基于因子分析的系统性能。

为了实现上述目的，本发明提供了一种基于因子分析的说话人分段聚类方法，所述方法包含以下步骤：

1)提取训练语音的声学特征，训练高斯混合通用背景模型，进而训练总变化因子模型和高斯概率线性判别分析模型；

2)输入测试语音，对测试语音进行分段并提取语音片段的声学特征；

3)依据高斯混合通用背景模型、总变化因子模型将提取的声学特征映射为总变化量因子，并加载高斯概率线性判别分析模型，根据总变化量因子计算任意两语音片段之间的对数似然比得分；

4)选择得分最高的两类进行合并，根据层次聚类的方法逐步迭代至收敛，最终输出说话人分段聚类结果。

进一步地，上述方法中各步骤的具体实施过程如下：

1)训练背景模型：

A、根据不同测试集选择对应的训练语料，首先提取训练语音的声学特征，对声学特征进行建模，训练与说话人无关的高斯混合通用背景模型(GMM-UBM，Gaussian Mixture Model-Universal Background Model)。

B、根据训练好的GMM-UBM模型提取统计量，然后进行高维总变化因子分析，训练T模型，即总变化因子模型。总变化因子模型假设表示为：

M_j＝m+Tw_j

w_j～N(0，I)

其中，M_j表示第说话人第j句话的高斯超向量，m表示GMM-UBM模型的均值超向量，w_j为第j句话的总变化因子，符合标准的高斯分布，T表示总变化矩阵。

C、根据GMM-UBM模型、T模型提取数据集的总变化因子，对总变化因子进行低维因子分析，训练高斯概率线性判别分析模型(Probabilistic Linear Discriminant Analysis，PLDA)，模型假设如下：

u＝m+Uy+e，E～N(0,Λ^-1)

其中，u表示第i个说话人的第j句话的总变化因子，m是模型的均值，U是本征音矩阵，y是本征因子，服从标准的高斯分布，e是残差因子，E表示残差矢量，Λ表示高斯分布的方差。在该模型假设中，本征因子y可以用来表征一个说话人。

2)对测试语音进行静音、背景音乐检测，去掉非语音部分。

3)提取测试语音的声学特征，此处提取60维的梅尔频率倒谱系数特征，等分语音段落为N段。加载UBM背景模型，提取统计量，加载T模型，提取每一段语音的总变化因子以及对应的协方差矩阵。

4)假定N段语音为基类，采用层次聚类的方式，计算N类中任意两类的类间距离。

5)采用全后验高斯概率线性判别分析的打分方式，计算类间距离。本发明提出了采用i-vector不确定性传递的PLDA模型，即全后验概率PLDA模型(full posterior plda models，FP-PLDA)。模型假设如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心，未经国家计算机网络与信息安全管理中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710395341.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于因子分析的说话人分段聚类方法及系统在审

专利文献下载