[发明专利]一种说话人无关单通道语音分离方法有效
| 申请号: | 202010401151.3 | 申请日: | 2020-05-12 |
| 公开(公告)号: | CN111583954B | 公开(公告)日: | 2021-03-30 |
| 发明(设计)人: | 张文;宋君强;任开军;李小勇;邓科峰;周翱隆;汪祥;任小丽;邵成成;吴国溧 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G10L21/0272 | 分类号: | G10L21/0272 |
| 代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 说话 无关 通道 语音 分离 方法 | ||
本发明公开了一种说话人无关单通道语音分离方法,包括以下步骤:准备数据集,进行数据预处理;建立基于复数理想浮值掩蔽的单声道语音分离模型;对所述的单声道语音分离模型进行训练时采用语句级置换不变性训练;将混合语音数据输入训练完毕的模型进行语音分离。本发明提出的基于语句级置换不变性训练和复数理想浮值掩蔽的说话人无关单通道语音分离方法,所述方法通过语句级置换不变训练有效而准确地实现了复数理想浮值掩蔽估计,方法中采用了双向长短期记忆神经网络结构估计复数理想浮值掩蔽,并进一步利用语句级置换不变训练的标准解决标签模糊的问题,从而使得单声道语音分离具有较好的效果。
技术领域
本发明属于智能语音处理技术领域,具体涉及一种基于语句级置换不变性训练和复数理想浮值掩蔽的说话人无关单通道语音分离。
背景技术
语音源分离任务的目标是从包含两个或多个语音源的混合语音信号中提取出多个语音源信号,每个说话者对应其中一个语音源信号。通常,根据麦克风或通道的数量,可以将语音分离问题分为单声道(即单通道)和基于阵列的(即多通道)源分离问题。对于前一个问题,主流研究方法是从目标语音和干扰信号的声学特性和统计特性出发,提取目标语音,或者从混合信号中去除干扰信号。在多通道语音分离问题中,除了信号的声学和统计特性之外,空间信息也是可用的。所以单声道语音分离问题仍然非常具有挑战性,因为只有一个语音记录可用并且可提取的空间信息十分有限。
自二十世纪九十年代以来,研究者已经开发出许多方法来解决单声道语音分离问题。在进入深度学习时代之前,经典的单通道语音分离方法可以分为三类:基于模型的方法,盲源分离(BSS)方法和计算听觉场景分析(CASA)方法。但是,这些方法在处理真实环境中捕获的多源混合语音中的声源时,其效果有限。因为存在众多困难,包括混合语音中多种多样的噪声、低信噪比环境以及有限的计算资源。因此,在真实环境中,很难通过上述方法始终如一地获得高质量的目标语音信号。
最近,研究者们采用深度神经网络(DNN)中的回归模型来解决源分离问题,尤其是对于单声道情况,取得了很好的性能增益。根据训练目标,基于DNN的单声道源分离方法可以分为三类,即基于掩蔽的方法,基于映射的方法和基于信号近似(SA)的方法。相比之下,与基于映射的方法相比,基于掩蔽的方法可以训练得到更准确的神经网络模型。
在有监督语音分离方法中,首先得到应用的基于掩蔽的训练目标是理想二值掩蔽(IBM),该方法是受到声音的掩蔽效应和听觉场景分析中的专有分配原理的启发而提出的。许多研究人员将IBM作为训练目标,并获得了较好的语音分离结果。由于IBM方法在每个时频域(time-frequency,T-F)单元取值非0即1的这种决策方式不够灵活,因此基于IBM的方法分离得到的语音信号会失真。为此,研究者提出了理想浮值掩蔽(IRM)来优化IBM的性能,将T-F单元的取值设定为目标声源的能量与混合语音的能量之比。与IBM相比,使用基于IRM的方法分离得到的目标语音信号通常具有更好的质量。
尽管这些基于DNN的方法获得了不错的性能,但是IBM和IRM在分离和合成干净语音信号时都仅仅使用了目标信号的幅度信息,因为在前期的研究中,人们认为相位谱对于语音分离并不重要。然而近来Erdogan等人的研究发现,相位信息对于预测准确的掩蔽和信号估计是有益的,他们提出了基于相敏掩蔽(PSM)的方法,该方法明显优于IBM和IRM。另外,Williamson等人在复数域中同时利用幅度谱和相位谱信息来估计复数理想浮值掩蔽(cIRM)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010401151.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示面板及其制备方法
- 下一篇:一种基于SSNet模型的地震事件到时识别方法





