[发明专利]一种端到端的说话人聚类方法及系统有效
| 申请号: | 201910575862.X | 申请日: | 2019-06-28 |
| 公开(公告)号: | CN110289002B | 公开(公告)日: | 2021-04-27 |
| 发明(设计)人: | 伍强 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
| 主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/14;G10L17/18 |
| 代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 刘兴亮 |
| 地址: | 621000 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 端到端 说话 人聚类 方法 系统 | ||
1.一种端到端的说话人聚类方法,其特征在于包括以下步骤:
S001:收集至少两人的说话人语音数据;
S002:提取语音数据的声学特征;所述声学特征包括梅尔频率倒谱系数MFCC和power-normalized cepstral coefficients PNCC;
S003:设计一个说话人聚类神经网络模型,用于聚类和分类;
S004:设计一个说话人识别神经网络模型,用于预训练模型;
S003:采用已知标签信息的说话人语音数据训练说话人识别神经网络模型;所述的说话人识别神经网络模型用于得到说话人聚类神经网络模型的初始参数,在一个已知说话人录音标签的数据集上训练神经网络直到收敛,然后将预训练神经网络的参数初始化聚类神经网络的参数;
S004:采用说话人识别模型参数初始化说话人聚类神经网络模型;
S005:采用未知标签的说话人语音数据训练说话人聚类神经网络模型;说话人聚类神经网络模型的训练方法,包括以下步骤:
S0:将说话人录音的声学特征输入神经网络中,提取说话人录音数据的深度声纹特征;
S1:将S0中说话人的深度声纹特征进行聚类,输出说话人录音的聚类标签;
S2:将S0中说话人的深度声纹特征进行分类,得到分类标签;
S3:计算S1中说话人录音的聚类标签和S2中的分类标签的分类误差,得到聚类神经网络的分类误差;
S4:将S3中的分类误差反馈到聚类神经网络中,更新聚类神经网络的参数;
S5:重复S0至S4的步骤,直到聚类神经网络收敛;
S6:待聚类神经网络收敛后,即可输出说话人录音数据的最终标签;
S006:说话人聚类神经网络模型收敛,输出未知标签的说话人语音数据的标签信息;
所述神经网络包括卷积神经网络、递归神经网络和延时神经网络中的一种或者多种网络的组合。
2.根据权利要求1所述端到端的说话人聚类方法,其特征在于:
S003中,用于提取分类和聚类特征的神经网络的参数是共享的,聚类结果作为伪标签提供给分类器进行训练,通过分类的训练进行反向传播优化神经网络的参数。
3.根据权利要求1所述端到端的说话人聚类方法,其特征在于:
聚类采用的算法包括k均值聚类、凝聚层级聚类、混合高斯模型聚类和谱聚类中的一种或者多种融合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910575862.X/1.html,转载请声明来源钻瓜专利网。





