[发明专利]说话人数目的判断方法在审
申请号: | 201710585056.1 | 申请日: | 2017-07-17 |
公开(公告)号: | CN107393527A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 李权;杨有科;余亮;谢泽鑫;陈杰永;冯国梁;邹月荣;郭清霞;陈元林 | 申请(专利权)人: | 广东讯飞启明科技发展有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L25/03;G10L25/51;G10L15/06 |
代理公司: | 广州市一新专利商标事务所有限公司44220 | 代理人: | 王德祥 |
地址: | 510663 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 人数 目的 判断 方法 | ||
技术领域
本发明涉及语音信号处理、模式识别等技术领域,特别涉及一种基于说话人分割和聚类的说话人数目判断方法。
背景技术
随着语音处理技术的不断发展,说话人数目的准确判断,能够帮助分析语音记录的场景,优化说话人分离的效果,从而制定相应的策略提升识别的效果。例如,电话记录的双说话人场景;或者会议记录的多说话人场景。
现有的说话人数目判断方法中数目判断结果的准确性完全依赖于说话人分割和聚类的准确性,而由于说话人分割受到步长的影响,步长多是根据经验确定,所以难免出现不合适的情况,从而影响分割及后面的聚类准确性,最终使得说话人数目判断出现误差。
发明内容
本发明提供一种说话人数目的判断方法,解决对于双说话人场景或多说话人场景,判断的说话人数目不准确的问题,提高判断说话人数目的准确度。
本发明采用如下技术方案:
一种说话人数目的判断方法,包括如下步骤:
接收语音数字信号,并对数字信号进行预处理;
提取预处理后的语音信号特征;
根据所述语音信号特征,将所述语音信号进行初步分割和初步聚类;
判断说话人数目是否为多人,若是,所述多人语音特征聚类,判断出说话人的数目,若否,判断出说话人数目是单人或双人;其中,多人为三人或三人以上。
进一步地,所述判断说话人数目是否为多人的步骤包括:
对语音信号的特征重新聚类;
利用总体变化因子模型提取当前各语音信号类的说话人因子向量;
根据所述说话人因子向量之间的距离计算不同语音信号类之间的相似度;
如果得到的最大相似度大于设定的第一阈值,则将最大相似度对应的两个语音信号类进行合并;然后重复计算过程;
否则,计算过程结束。
进一步地,所述多人语音特征聚类,判断出说话人的数目的步骤为:
利用总体变化因子模型提取当前各语音信号类的说话人因子向量;
利用概率线性鉴别分析PLDA技术从所述说话人因子向量中提取信道无关的说话人因子向量;
根据所述信道无关的说话人因子向量之间的距离计算不同语音信号类之间的相似度;
如果得到的最大相似度大于设定的第二阈值,则将最大相似度对应的两个语音信号类进行合并;然后重复计算过程;
否则,计算过程结束;
其中,将当前语音信号类的数目作为说话人数目。
进一步地,所述判断出说话人数目是单人或双人的步骤为:
利用总体变化因子模型提取当前各语音信号类的说话人因子向量;
利用大量离线数据训练的PLDA模型来计算各语音信号类的说话人因子向量之间与信道无关的PLDA得分;
如果得到的最大PLDA得分大于设定的第三阈值,则将最大PLDA得分对应的两个语音信号类进行合并;然后重复计算过程;
否则,计算过程结束;
其中,将当前语音信号类的数目作为说话人数目。
有益效果
本发明根据重分割后语音信号类中各分割信号段的语音信号特征计算重分割后各语音信号类的相似度,根据所述相似度计算结果获取说话人数目。由于对语音信号进行重分割,可以消除现有技术中对语音信号进行分割时的步长限制的影响,提高说话人分割的准确性,从而提高后续说话人数目判断的准确性,以提升语音识别效果。
附图说明
图1是本发明提供的的一个实施例的说话人数目判断方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的一个实施例的说话人数目判断方法具体流程。该方法包括如下步骤:
S1:接收语音数字信号,并对数字信号进行预处理。
所述预处理主要是对数字信号进行端点检测,在信号中找到有效语音段,去除非语音段。
S2:提取预处理后语音信号特征。
所述语音信号特征,可以是PLP特征,当然也可以是MFCC、PLC等语音特征。
S3:根据所述语音信号特征,将所述语音信号进行初步分割和初步聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东讯飞启明科技发展有限公司,未经广东讯飞启明科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710585056.1/2.html,转载请声明来源钻瓜专利网。