[发明专利]利用提前停止聚类的讲话者分离在审
| 申请号: | 201980035652.X | 申请日: | 2019-03-29 |
| 公开(公告)号: | CN112204657A | 公开(公告)日: | 2021-01-08 |
| 发明(设计)人: | 陈丽萍;宋謌平 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G10L17/00 | 分类号: | G10L17/00 |
| 代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 张立达 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 利用 提前 停止 讲话 分离 | ||
1.一种用于讲话者分离的方法,包括:
将音频流分割为至少一个语音段,所述音频流包括来自至少一个讲话者的语音;
将所述至少一个语音段聚类为多个簇,所述多个簇的数量大于所述至少一个讲话者的数量;
从所述多个簇中选择相似度最高的至少一个簇,所选择的至少一个簇的数量等于所述至少一个讲话者的数量;
基于所选择的至少一个簇来建立讲话者分类模型;以及
通过所述讲话者分类模型,将所述音频流中的语音帧与所述至少一个讲话者对准。
2.根据权利要求1所述的方法,其中,所述聚类包括:
利用所述至少一个语音段来对数据集进行初始化,所述数据集包括利用所述至少一个语音段分别初始化的至少一个数据项;以及
基于所述数据集中的数据项之间的余弦相似度和/或贝叶斯信息准则(BIC)分数,将所述至少一个数据项迭代地聚类为所述多个簇。
3.根据权利要求2所述的方法,还包括:
确定所述余弦相似度和/或所述BIC分数是否满足预定标准,所述预定标准是由余弦相似度阈值、BIC分数阈值以及用于计算所述BIC分数的惩罚权重中的至少一个来定义的;以及
如果所述余弦相似度和/或所述BIC分数满足所述预定标准,则停止所述聚类。
4.根据权利要求2所述的方法,其中,余弦相似度是至少基于两个数据项的d-向量来计算的,并且BIC分数是至少基于两个数据项的高斯参数来计算的。
5.根据权利要求2所述的方法,其中,所述将所述至少一个数据项迭代地聚类为所述多个簇包括迭代地执行一系列操作,所述一系列操作包括:
计算所述数据集中的每两个数据项的BIC分数;
选择所述数据集中的具有最大BIC分数的两个数据项;
确定所选择的两个数据项的BIC分数是否满足BIC分数阈值;以及
如果满足所述BIC分数阈值,则将所选择的两个数据项合并为所述数据集中的新数据项,否则,如果不满足所述BIC分数阈值,则停止执行所述一系列操作。
6.根据权利要求2所述的方法,其中,所述将所述至少一个数据项迭代地聚类为所述多个簇包括迭代地执行第一系列操作,所述第一系列操作包括:
针对所述数据集中的每个数据项计算d-向量;
利用所述数据集中的每两个数据项的d-向量来计算这两个数据项的余弦相似度;
选择所述数据集中的具有最高余弦相似度的两个数据项;
计算所选择的两个数据项的BIC分数;
确定所选择的两个数据项的余弦相似度和BIC分数是否分别满足余弦相似度阈值和第一BIC分数阈值;以及
如果满足所述余弦相似度阈值和所述第一BIC分数阈值两者,则将所选择的两个数据项合并为所述数据集中的新数据项,否则,如果不满足所述余弦相似度阈值和/或所述第一BIC分数阈值,则停止执行所述第一系列操作。
7.根据权利要求6所述的方法,还包括迭代地执行第二系列操作,所述第二系列操作包括:
计算所述数据集中的每两个数据项的BIC分数;
选择所述数据集中的具有最大BIC分数的两个数据项;
确定所选择的两个数据项的BIC分数是否满足第二BIC分数阈值;以及
如果满足所述第二BIC分数阈值,则将所选择的两个数据项合并为所述数据集中的新数据项,否则,如果不满足所述第二BIC分数阈值,则停止执行所述第二系列操作。
8.根据权利要求5、6或7所述的方法,其中,所述BIC分数是至少基于相应的惩罚权重来计算的。
9.根据权利要求1所述的方法,其中,所述选择包括:
计算所述多个簇中的每一组M个簇的相似度度量,M是所述至少一个讲话者的数量;以及
选择具有最大相似度度量的一组M个簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980035652.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:光差分检测器及检查装置
- 下一篇:CEST磁共振成像中的运动检测





