[发明专利]一种基于自学习复数卷积神经网络的鲁棒性语音增强方法在审
| 申请号: | 202210212480.2 | 申请日: | 2022-03-04 |
| 公开(公告)号: | CN114566178A | 公开(公告)日: | 2022-05-31 |
| 发明(设计)人: | 张睿;张鹏云;高美蓉;潘理虎;白晓露;马健喆 | 申请(专利权)人: | 太原科技大学 |
| 主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0224;G10L21/0232;G10L25/30;G10L25/36;G10L25/39;G06N3/04 |
| 代理公司: | 太原科卫专利事务所(普通合伙) 14100 | 代理人: | 侯小幸 |
| 地址: | 030024 山*** | 国省代码: | 山西;14 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 自学习 复数 卷积 神经网络 鲁棒性 语音 增强 方法 | ||
本发明公开了一种基于自学习复数卷积神经网络的鲁棒性语音增强方法,涉及语音增强、降噪领域。该方法通过构建MDCCRN模型,丰富了语音特征及不同空间域特征的关联性表征;引入基于博弈论并行、全局寻优策略改良的麻雀搜索算法(PGSSA),提高并行搜索能力,从而进一步提高模型超参数自适应寻优的效率和性能,也提高了模型搜索精度;同时使用PGSSA对构建AMDCCRN时所需的6个关键模型参数进行自适应寻优,最终构建出适用于多域辅助融合且具备自学习能力的语音增强模型。本发明所提方法取得了更好的语音增强效果,更好地提取了不同域信息的内在关联性,有很好的有效性和泛化性,在降低网络设计难度的同时有效提升了网络降噪效果。
技术领域
本发明涉及语音增强、降噪领域,具体为一种基于自学习复数卷积神经网络的鲁棒性语音增强方法。
背景技术
语音通信等任务广泛应用于日常生活中,但语音中的噪声会覆盖语音中的关键信息,降低语音感知质量和可理解性,使语音质量难以保证,影响人对语音内容的理解,进而降低用户通信体验,对日常生活造成严重影响。为有效消除噪声干扰,语音增强技术被提出,它是通过对带噪语音信号进行处理,尽可能移除噪声信号,恢复出干净语音的技术,大幅减少了语音通信中噪声的干扰、提高语音信噪比,使语音通信质量更好。因此,语音增强对语音的相关任务至关重要。
近年来,深度学习成为语音领域的研究热点,基于深度学习的语音增强方法得到快速发展。早期研究的语音增强方法主要是基于时频域的分析方法,更关注时频域中与振幅相关的训练目标,而忽略了相位即关注实部忽略虚部,单纯的利用语音信号实部特征进行语音增强,导致语音信号较正常值偏离严重,造成降噪效果差等问题。最近一些研究开始重视虚部信息,在实值网络中进行训练,分别预测实部和虚部后进行叠加。如微软提出的Phase语音增强模型,使用双流模型架构分别处理实部和虚部信息,各项指标都取得了不错的效果。Tan等人的卷积递归网络(CRN)集成了卷积编解码器(CED)结构和长短期记忆网络(LSTM),已被证明有利于处理复杂的目标。这些方法虽利用了实部与虚部的信息,但实虚部也需分离计算且不受复乘规则的限制,没有充分利用实部与虚部的内在关联性。为将实部和虚部共同计算以充分利用其关联性,Choi等人根据U-NET提出DCUNET网络,在U-NET基础上设计了复数批归一化和复数Relu(PRelu)块来实现该思想,复数模块通过复数乘法来模拟实部和虚部之间的相关性,输入的复数数据可以直接进行运算,无需将实部虚部分开估计。hu等人设计了一种深度复数卷积递归网络(DCCRN),借鉴DCUNET的复数思想并对CRN进行大量修改得到复数Conv2d层,提出复数LSTM来代替传统的LSTM,进一步更新了CRN网络。此类基于复数的方法充分利用了实部和虚部,很大程度保留了有效的语音特征,提高了语音增强效果,但这些方法仍然只是基于语音信号的时频域进行分析,而忽视了其他空间域的信息表达且现阶段语音增强模型仍需专业经验及可靠先验知识的科研人员进行人工设计,既耗时费力又难以保证网络的鲁棒性和泛化性,制约了实际工程中语音增强方法的落地应用。基于上述思想,可以进一步的改进语音增加方法。
发明内容
本发明为了解决进一步提高深度语音增强模型对语音信号的特征完备性、关联性表达及模型超参数自适应全局优化效率的问题,提供了一种基于自学习复数卷积神经网络的鲁棒性语音增强方法(简写为AMDCCRN)。
本发明是通过如下技术方案来实现的:一种基于自学习复数卷积神经网络的鲁棒性语音增强方法,包括如下步骤:
一、将一维语音信号映射至多个空间域中生成基础域和辅助域;
候选多辅助域设置:将语音一维信号样本映射入多个空间域中以得到更多的语音信息,数据样本高维映射空间域包括基础域的时频域即短时傅里叶变换STFT和辅助域的递归图域RPF、格拉姆角和场域GASF、格拉姆角差场域GADF、马尔科夫转移场域MTF;
二、搭建MDCCRN语音增强模型,通过复数自注意力机制更深层次的提取基础域的信息,并通过所设计的复数多头注意力机制将基础域和表征能力强的辅助域的特征信息相融合实现更好的自寻优:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原科技大学,未经太原科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210212480.2/2.html,转载请声明来源钻瓜专利网。





