[发明专利]语音分离方法、语音识别方法及相关设备有效
| 申请号: | 201910745688.9 | 申请日: | 2019-04-12 |
| 公开(公告)号: | CN110459238B | 公开(公告)日: | 2020-11-20 |
| 发明(设计)人: | 陈联武;于蒙;苏丹;俞栋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308;G10L25/30;G10L21/0216;G10L21/0208 |
| 代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 分离 方法 识别 相关 设备 | ||
本发明实施例提供了一种语音分离方法、语音识别方法及相关设备。该语音分离方法包括:获取包括至少两个目标对象的语音信号的混合语音信号;获取所述混合语音信号对应的单通道频谱特征和多通道方位特征;通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠;根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种语音分离方法、语音识别方法、语音分离装置、计算机可读介质及电子设备。
背景技术
在嘈杂的声学环境中,比如在鸡尾酒会中,往往同时存在着许多不同的声源:多个人同时说话的声音、餐具的碰撞声、音乐声等杂音,以及这些声音经墙壁和室内的物体反射所产生的反射声等。在声波的传递过程中,不同声源所发出的声波之间(不同人说话的声音以及其他物体振动发出的声音)以及直达声和反射声之间会在传播介质(通常是空气)中相叠加而形成复杂的混合声波。
因此,在达到听者外耳道的混合声波中已经不存在独立的与多个声源相对应的声波了。然而,在这种声学环境下,人类的听觉系统却能在一定程度上听清楚其所注意的目标语音,而机器在这方面的能力还不如人类。
因此,在语音信号处理领域,如何能够实现在嘈杂环境中分离出目标语音的功能是目前亟待解决的技术问题。
发明内容
本发明实施例的目的在于提供一种语音分离方法、语音识别方法及相关设备,进而至少在一定程度上实现在嘈杂环境中分离出目标语音。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的一个方面,提供了一种语音分离方法,所述方法包括:获取包括至少两个目标对象的语音信号的混合语音信号;获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征,所述全语音频段包括K个子频段,K为大于等于2的正整数;从所述全语音频段的单通道频谱特征和多通道方位特征中,提取K个子频段的单通道频谱特征和多通道方位特征;通过K个第一神经网络对所述K个子频段的单通道频谱特征和多通道方位特征进行处理,获得K个第一特征向量;根据所述K个第一特征向量生成合并特征向量;通过第一预测网络对所述合并特征向量进行处理,获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。
在本发明的一些示例性实施例中,所述方法还包括:根据各目标对象的第一语音频谱掩码矩阵和所述混合语音信号,获得各目标对象的第一语音频谱。
在本发明的一些示例性实施例中,K的取值范围为[2,8]之间的正整数。
在本发明的一些示例性实施例中,所述单通道频谱特征包括对数功率谱;所述多通道方位特征包括多通道相位差特征和/或多通道幅度差特征。
在本发明的一些示例性实施例中,K个第一神经网络中的各第一神经网络包括LSTM、DNN、CNN中的任意一个或者多个。
根据本发明实施例的一个方面,提供了一种语音分离方法,所述方法包括:获取包括至少两个目标对象的语音信号的混合语音信号;获取所述混合语音信号对应的单通道频谱特征和多通道方位特征;通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠;根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。
在本发明的一些示例性实施例中,根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵,包括:若所述判断结果为目标对象之间不存在重叠,则通过多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理,获得所述目标语音频谱掩码矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910745688.9/2.html,转载请声明来源钻瓜专利网。





