[发明专利]一种基于因子分析的说话人分段聚类方法及系统在审
| 申请号: | 201710395341.7 | 申请日: | 2017-05-27 |
| 公开(公告)号: | CN107342077A | 公开(公告)日: | 2017-11-10 |
| 发明(设计)人: | 计哲;颜永红;安茂波;陈燕妮;苗权;李鹏;张震;万辛 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/07;G10L15/14;G10L17/04;G10L17/14 |
| 代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 邱晓锋 |
| 地址: | 100029*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 因子分析 说话 分段 方法 系统 | ||
1.一种基于因子分析的说话人分段聚类方法,其步骤包括:
1)提取训练语音的声学特征,训练高斯混合通用背景模型,进而训练总变化因子模型和高斯概率线性判别分析模型;
2)输入测试语音,对测试语音进行分段并提取语音片段的声学特征;
3)依据高斯混合通用背景模型和总变化因子模型,将提取的声学特征映射为总变化量因子,并加载高斯概率线性判别分析模型,根据总变化量因子计算任意两语音片段之间的对数似然比得分;
4)选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。
2.根据权利要求1所述的方法,其特征在于,步骤1)的模型训练过程包括:
A、根据不同测试集选择对应的训练语音,提取训练语音的声学特征,对声学特征进行建模,训练与说话人无关的高斯混合通用背景模型;
B、根据训练好的高斯混合通用背景模型提取统计量,然后进行高维总变化因子分析,训练总变化因子模型;
C、根据高斯混合通用背景模型、总变化因子模型提取数据集的总变化因子,对总变化因子进行低维因子分析,训练高斯概率线性判别分析模型。
3.根据权利要求2所述的方法,其特征在于,所述总变化因子模型表示为:
其中,Mj表示第说话人第j句话的高斯超向量,m表示高斯混合通用背景模型模型的均值超向量,wj为第j句话的总变化因子,符合标准的高斯分布,T表示总变化矩阵。
4.根据权利要求2所述的方法,其特征在于,所述高斯概率线性判别分析模型表示为:
u=m+Uy+e,E~N(0,Λ-1),
其中,u表示第i个说话人的第j句话的总变化因子,m是模型的均值,U是本征音矩阵,y是本征因子,服从标准的高斯分布,e是残差因子,E表示参差矢量,Λ表示高斯分布的方差。
5.根据权利要求1所述的方法,其特征在于,步骤2)对测试语音加固定窗获取语音片段,根据贝叶斯信息准则模型计算相邻两语音片段的间距并合并,从而完成语音分段。
6.根据权利要求1所述的方法,其特征在于,步骤2)对测试语音进行静音、背景音乐检测,去掉非语音部分,然后提取测试语音的声学特征,提取的语音特征是60维的梅尔频率倒谱系数特征,等分语音段落为N段。
7.根据权利要求1所述的方法,其特征在于,步骤3)首先加载高斯混合通用背景模型,提取统计量,然后加载总变化因子模型,提取每一段语音的总变化因子以及对应的表示不确定性的协方差矩阵;然后将不确定性传递到高斯概率线性判别分析模型中,采用全后验高斯概率线性判别分析的打分方式计算类间距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710395341.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音和声音的识别方法发明
- 下一篇:对话策略优化的冷启动系统和方法





