[发明专利]一种端到端的说话人聚类方法及系统有效
| 申请号: | 201910575862.X | 申请日: | 2019-06-28 |
| 公开(公告)号: | CN110289002B | 公开(公告)日: | 2021-04-27 |
| 发明(设计)人: | 伍强 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
| 主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/14;G10L17/18 |
| 代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 刘兴亮 |
| 地址: | 621000 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 端到端 说话 人聚类 方法 系统 | ||
本发明公开了一种端到端的说话人聚类方法,包括以下步骤:S001:收集至少两人的说话人语音数据;S002:提取语音数据的声学特征;S003:设计一个说话人聚类神经网络模型,用于聚类和分类;S004:设计一个说话人识别神经网络模型,用于预训练模型;S003:采用已知标签信息的说话人语音数据训练说话人识别神经网络模型;S004:采用说话人识别模型参数初始化说话人聚类神经网络模型;S005:采用未知标签的说话人语音数据训练说话人聚类神经网络模型;S006:说话人聚类神经网络模型收敛,输出未知标签的说话人语音数据的标签信息。本发明可以大大减少人工参与数据标定的工作量,也有助于提高说话人识别模型的精度。
技术领域
本发明涉及一种说话人识别学习方法及系统,具体涉及一种端到端的说话人聚类方法及系统。
背景技术
近几年来,随着人工智能技术的快速发展,越来越多的带有人工智能技术的产品出现在人们的日常生活中,特别是近年的智能音箱异军突起。其中声纹识别技术几乎是所有的智能音箱的标配,用户使用自己的声音就可以完成账户登录、购物支付等。
深度学习的发展使得很多领域都取得了惊人的进步,包括说话人识别领域,然而现在通过改变网络的结构对分类准确率的影响已经越来越小,因此人们把关注点放在扩充数据集上,现有的常见数据集规模相对现在深度学习发展水平来说也是有些不够的,然而扩充数据集是一件困难的事,许多时候需要进行人工的标注,而人工标注是费时费力。因此使用无监督的方法生成更大的数据集也成为了现在研究的需求。传统的聚类方法主要是针对固定特征之上的线性模型而设计的,只能针对某些数据有好的效果,泛化性差。
为了解决深度学习在说话人识别领域数据不足的问题,提出了一种端到端的说话人聚类方法及系统,首先预训练一个说话人识别网络模型,然后用这个预训练的说话人识别模型初始化聚类网络模型,其中聚类网络模型有聚类和分类两个输出分支,聚类分支输出的标签信息用于分类分支的输入真实标签,计算聚类网络模型的分类误差,分类误差反馈回聚类网络模型,更新聚类网络模型的参数,如此迭代直到聚类网络模型收敛,最终输出说话人语音的标签信息。通过此系统可以获取海量的带标签的说话人录音数据用于训练说话人识别模型,大大减少人工参与数据标定的工作量,同时也有助于提高说话人识别模型的精度。
发明内容
本发明的目的在于克服现有技术存在的人工标定工作量极大的问题,提供一种端到端的说话人聚类方法及系统。
本发明是这样实现的:
一种端到端的说话人聚类方法,包括以下步骤:
S001:收集至少两人的说话人语音数据;
S002:提取语音数据的声学特征;
S003:设计一个说话人聚类神经网络模型,用于聚类和分类;
S004:设计一个说话人识别神经网络模型,用于预训练模型;
S003:采用已知标签信息的说话人语音数据训练说话人识别神经网络模型;
S004:采用说话人识别模型参数初始化说话人聚类神经网络模型;
S005:采用未知标签的说话人语音数据训练说话人聚类神经网络模型;
S006:说话人聚类神经网络模型收敛,输出未知标签的说话人语音数据的标签信息。
更进一步的方案是:
声学特征提取模块提取说话人语音的声学特征,声学特征包括但不仅限梅尔频率倒谱系数(MFCC)和power-normalized cepstral coefficients(PNCC)。
更进一步的方案是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910575862.X/2.html,转载请声明来源钻瓜专利网。





