[发明专利]说话人数目的判断方法在审
申请号: | 201710585056.1 | 申请日: | 2017-07-17 |
公开(公告)号: | CN107393527A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 李权;杨有科;余亮;谢泽鑫;陈杰永;冯国梁;邹月荣;郭清霞;陈元林 | 申请(专利权)人: | 广东讯飞启明科技发展有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L25/03;G10L25/51;G10L15/06 |
代理公司: | 广州市一新专利商标事务所有限公司44220 | 代理人: | 王德祥 |
地址: | 510663 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 人数 目的 判断 方法 | ||
1.说话人数目的判断方法,其特征在于,包括如下步骤:
接收语音数字信号,并对数字信号进行预处理;
提取预处理后的语音信号特征;
根据所述语音信号特征,将所述语音信号进行初步分割和初步聚类;
判断说话人数目是否为多人,若是,所述多人语音特征聚类,判断出说话人的数目,若否,判断出说话人数目是单人或双人;其中,多人为三人或三人以上。
2.如权利要求1所述的说话人数目的判断方法,其特征在于,所述判断说话人数目是否为多人的步骤包括:
对语音信号的特征重新聚类;
利用总体变化因子模型提取当前各语音信号类的说话人因子向量;
根据所述说话人因子向量之间的距离计算不同语音信号类之间的相似度;
如果得到的最大相似度大于设定的第一阈值,则将最大相似度对应的两个语音信号类进行合并;然后重复计算过程;
否则,计算过程结束。
3.如权利要求1所述的说话人数目的判断方法,其特征在于,所述多人语音特征聚类,判断出说话人的数目的步骤为:
利用总体变化因子模型提取当前各语音信号类的说话人因子向量;
利用概率线性鉴别分析PLDA技术从所述说话人因子向量中提取信道无关的说话人因子向量;
根据所述信道无关的说话人因子向量之间的距离计算不同语音信号类之间的相似度;
如果得到的最大相似度大于设定的第二阈值,则将最大相似度对应的两个语音信号类进行合并;然后重复计算过程;
否则,计算过程结束;
其中,将当前语音信号类的数目作为说话人数目。
4.如权利要求1所述的说话人数目的判断方法,其特征在于,所述判断出说话人数目是单人或双人的步骤为:
利用总体变化因子模型提取当前各语音信号类的说话人因子向量;
利用大量离线数据训练的PLDA模型来计算各语音信号类的说话人因子向量之间与信道无关的PLDA得分;
如果得到的最大PLDA得分大于设定的第三阈值,则将最大PLDA得分对应的两个语音信号类进行合并;然后重复计算过程;
否则,计算过程结束;
其中,将当前语音信号类的数目作为说话人数目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东讯飞启明科技发展有限公司,未经广东讯飞启明科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710585056.1/1.html,转载请声明来源钻瓜专利网。