[发明专利]语音分离方法、装置、计算机设备和存储介质有效
申请号: | 202011210358.9 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112435684B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 唐文军;贾晓谦;宋子岳;王冉 | 申请(专利权)人: | 中电金信软件有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L17/00;G10L25/18;G10L25/24;G10L15/16 |
代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 魏朋 |
地址: | 100192 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 分离 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种语音分离方法、装置、计算机设备和存储介质,包括:获取待分离语音音频,根据待分离语音音频,得到其对应的多个音频切片;根据各个音频切片对应的频谱数据得到对应人耳听觉接受频率的目标频谱,并根据目标频谱确定各个音频切片对应的第一声纹特征;将多个音频切片对应的多个第一声纹特征输入到预先训练的声纹识别模型,根据第二声纹特征对多个音频切片进行聚类,根据聚类结果对待分离语音音频中不同发音对象的语音音频进行语音分离,实现了语音分离成本和语音分离效果的兼顾,能够模拟人耳对声音的感知,减少对硬件的依赖;并且,通过声纹识别模型能够准确识别声音细节特征,有效提高语音分离的准确度。
技术领域
本申请涉及计算机技术领域,特别是涉及一种语音分离方法、装置、计算机设备和存储介质。
背景技术
现有的语音分离技术中,主要通过传感器的硬件支持或软件预分离的处理方式,对采集的声音进行鉴别、分析,从而在包含多个说话人语音的音频中,分别提取出每个说话人对应的语音。
然而,对传感器的依赖容易造成语音分离成本过高,而采用软件预分离的方式,针对差别细微的语音信号的分离效果不佳。这导致现有的语音分离技术难以兼顾分离成本和分离效果。
发明内容
基于此,有必要针对上述技术问题,提供一种语音分离方法、装置、计算机设备和存储介质。
本申请实施例提出一种语音分离方法,所述方法包括:
获取待分离语音音频;
根据所述待分离语音音频,得到其对应的多个音频切片;
根据各个音频切片对应的频谱数据得到对应人耳听觉接受频率的目标频谱,并根据所述目标频谱确定各个音频切片对应的第一声纹特征;
将多个音频切片对应的多个第一声纹特征输入到预先训练的声纹识别模型;所述声纹识别模型用于识别所述多个第一声纹特征之间的差别特征,并基于所述差别特征得到所述多个音频切片各自对应的第二声纹特征;
根据所述第二声纹特征对多个音频切片进行聚类,根据聚类结果对所述待分离语音音频中不同发音对象的语音音频进行语音分离。
在其中一个实施例中,所述根据所述目标频谱,确定各个音频切片对应的第一声纹特征,包括:
针对每个目标频谱,获取目标频谱中各个频率值对应的对数,并对所述对数进行离散余弦变换,得到所述目标频谱对应的倒谱系数,并确定为对应音频切片的第一声纹特征。
在其中一个实施例中,所述方法还包括:
将具有发音对象标签的多个第一样本声纹特征输入至深度残差网络模型;所述深度残差网络模型用于识别所述多个第一样本声纹特征之间的差别特征,并基于所述差别特征输出发音对象预测值;
根据所述深度残差网络模型输出发音对象预测值和所述发音对象标签,确定所述深度残差网络模型的训练误差;
当所述训练误差大于预设误差阈值时,调整所述深度残差网络模型,返回将具有发音对象标签的多个第一样本声纹特征输入至深度残差网络模型的步骤,直到所述训练误差小于预设误差阈值,获取当前的深度残差网络模型为所述声纹识别模型。
在其中一个实施例中,所述第二声纹特征为经过所述声纹识别模型中的卷积残差单元、恒等残差单元和池化残差单元对所述第一声纹特征进行处理后,输入至所述声纹识别模型中的全连接层的声纹特征向量,所述根据所述第二声纹特征对多个音频切片进行聚类,包括:
根据各音频切片对应的声纹特征向量,确定音频切片与聚类中心的相似度,根据所述相似度对多个音频切片进行多次聚类;
从多次聚类中确定聚类结果最佳的目标聚类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电金信软件有限公司,未经中电金信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011210358.9/2.html,转载请声明来源钻瓜专利网。