[发明专利]一种说话人分离方法、装置及电子设备在审
申请号: | 202111093768.4 | 申请日: | 2021-09-17 |
公开(公告)号: | CN114171050A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 马驭飞;王强强 | 申请(专利权)人: | 作业帮教育科技(北京)有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308;G06K9/62 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 宋红艳 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 分离 方法 装置 电子设备 | ||
1.一种说话人分离方法,其特征在于,所述方法包括如下步骤:
对待分离语音进行预处理,得到多个语音分段;
从所述多个语音分段中提取特征数据,所述特征数据包括:拼接特征矩阵,预分类结果,以及各个语音分段的结束帧数;
将所述特征数据输入基于指定计算机语言环境训练好的变分贝叶斯ivector模型中,所述变分贝叶斯模型根据拼接特征矩阵计算各个帧的统计量;根据各个语音分段的结束帧数将各个帧分至对应的状态,得到各个帧与各个状态的对应关系;将所述对应关系作用于各个帧的统计量和预分类结果中,得到各个状态的降采样结果;对各个状态的降采样结果进行前后迭代后,输出各个帧的语音标签,得到所述待分离语音的分离结果;其中,所述状态指预定个数个帧所在的时间片段中说话人的分布。
2.根据权利要求1所述的说话人分离方法,其特征在于,所述根据各个语音分段的结束帧数将各个帧分至对应的状态,得到各个帧与各个状态的对应关系包括:
将第i帧分至状态i*segrange/seglen中,并根据各个帧与各个状态的对应关系生成关系矩阵;
其中:seglen为待分离语音包含的总帧数,segrange为各个语音分段包含的帧数除以预设每个状态包含的帧数取整。
3.根据权利要求2所述的说话人分离方法,其特征在于,所述根据拼接特征矩阵计算各个帧的统计量包括:
计算各个帧各高斯分量的后验概率;
将各个帧各高斯分量的后验概率通过混合高斯模型向ivector空间投影矩阵进行投影,得到各个帧ivector分量的一阶统计量。
4.根据权利要求3所述的说话人分离方法,其特征在于,所述根据拼接特征矩阵计算各个帧的统计量还包括:
将小于阈值的各个帧各高斯分量的后验概率置为0,得到稀疏化的各个帧各高斯分量的后验概率,并将稀疏化的各个帧各高斯分量的后验概率通过混合高斯模型向ivector空间投影矩阵进行投影,得到各个帧ivector分量的一阶统计量。
5.根据权利要求2所述的说话人分离方法,其特征在于,所述对各个状态的降采样结果进行前后迭代后,输出各个帧的语音标签包括:
迭代更新各个状态的降采样结果并输出证据下界,直至证据下界收敛或达到最大迭代次数为止;
将各状态对应概率最大的说话人语音标签作为该状态中各个帧的语音标签,并返回各个帧的语音标签。
6.根据权利要求1所述的说话人分离方法,其特征在于,所述对待分离语音进行预处理,得到多个语音分段包括:
对待分离语音进行预处理后,得到各语音分段内语音单元与起止时间的对应结果;
对应的,所述方法还包括:
查找语音单元对应起止时间内标记时间最长的语音标签,将该语音单元与所述语音标签对应作为说话人分离结果输出。
7.根据权利要求1所述的说话人分离方法,其特征在于,所述将所述特征数据输入基于指定计算机语言环境训练好的变分贝叶斯ivector模型之前,所述方法还包括:
读取基于指定计算机语言环境训练好的ivector模型。
8.一种说话人分离装置,其特征在于,包括:
预处理模块,用于对待分离语音进行预处理,得到多个语音分段;
提取模块,用于从所述多个语音分段中提取特征数据,所述特征数据包括:拼接特征矩阵,预分类结果,以及各个语音分段的结束帧数;
模型处理模块,用于将所述特征数据输入基于指定计算机语言环境训练好的变分贝叶斯ivector模型中,得到所述待分离语音的分离结果;
其中,所述变分贝叶斯模型包括:统计量计算模块,用于根据拼接特征矩阵计算各个帧的统计量;
降采样模块,用于根据各个语音分段的结束帧数将各个帧分至对应的状态,得到各个帧与各个状态的对应关系;将所述对应关系作用于各个帧的统计量和预分类结果中;所述状态指特定时间片段说话人的分布;
结果输出模块,用于对各个状态的降采样结果进行前后迭代后,输出各个帧的语音标签。
9.一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,其特征在于:
当所述计算机程序被所述处理器执行时,所述处理器执行如权利要求1-7中任一项所述的说话人分离方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于作业帮教育科技(北京)有限公司,未经作业帮教育科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111093768.4/1.html,转载请声明来源钻瓜专利网。