[发明专利]一种语音话者分离方法和装置有效

申请号：	202010131005.3	申请日：	2020-02-28
公开（公告）号：	CN111429935B	公开（公告）日：	2023-08-29
发明（设计）人：	汪法兵;李健;武卫东	申请（专利权）人：	北京捷通华声科技股份有限公司
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/028;G10L21/0308;G10L21/0208
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音分离方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种语音话者分离方法和装置，涉及语音识别技术领域。本发明实施例中，在对语音片段聚类之前，通过预先设置的预设噪音过滤参数对语音片段进行过滤，由于瞬态噪声与话者语音之间有着明显的不同，因此，可以通过合适的预设噪音过滤参数将大部分瞬态噪声过滤，保证第一语音集合中大部分为不同话者的语音片段，从而提升了后续第一语音特征提取以及语音片段聚类的准确性，正确分离不同话者语音，提升了语音话者分离技术的鲁棒性。

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音话者分离方法和装置。

背景技术

在通话、语音识别、声纹识别等场景中，通常需要区分不同语音输入对应的话者身份，或在输入的多人语音中仅接收某个特定说话人的语音。因此，在实际应用中，当输入的是多人语音时，就需要通过话者分离技术分离不同说话人的语音。

当输入的音频信噪比较高时，可以通过对语音特定长度分段、逐段特征提取、依据特征聚类的方式分离不同话者的语音。但是，当输入的音频信噪比低、背景干扰噪声如键盘敲击声、开关门声、风声较多时，会影响语音特征提取的结果，从而严重干扰语音聚类的准确性，降低话者分离的鲁棒性。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音话者分离方法和装置。

依据本发明的第一方面，提供了一种语音话者分离方法，该方法包括：

获取待处理的音频数据；

根据静音期对所述音频数据进行分段处理，获得至少一个语音片段；

将符合预设噪声过滤参数的语音片段归为第一语音集合；

提取所述第一语音集合中的语音片段的第一语音特征；

根据所述第一语音特征对所述第一语音集合中的语音片段进行聚类，得到聚类结果；

根据所述聚类结果，分离所述第一语音集合中不同话者的语音片段。

依据本发明的第二方面，提供了一种语音话者分离装置，所述装置包括：

数据获取模块，用于获取待处理的音频数据；

数据分段模块，用于根据静音期对所述音频数据进行分段处理，获得至少一个语音片段；

参数过滤模块，用于将符合预设噪声过滤参数的语音片段归为第一语音集合；

特征提取模块，用于提取所述第一语音集合中的语音片段的第一语音特征；

数据聚类模块，用于根据所述第一语音特征对所述第一语音集合中的语音片段进行聚类，得到聚类结果；

语音分离模块，用于根据所述聚类结果，分离所述第一语音集合中不同话者的语音片段。

本发明实施例中，在对语音片段聚类之前，通过预先设置的预设噪音过滤参数对语音片段进行过滤，由于瞬态噪声与话者语音之间有着明显的不同，因此，可以通过合适的预设噪音过滤参数将大部分瞬态噪声过滤，保证第一语音集合中大部分为不同话者的语音片段，从而提升了后续第一语音特征提取以及语音片段聚类的准确性，正确分离不同话者语音，提升了语音话者分离技术的鲁棒性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司，未经北京捷通华声科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010131005.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种网络深度威胁检测方法
下一篇：一种保持光谱特性的可见光和近红外图像融合方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语音话者分离方法和装置有效

专利文献下载