[发明专利]基于深度域自适应网络的助听器语音增强方法有效

申请号：	202010847510.8	申请日：	2020-08-20
公开（公告）号：	CN111968666B	公开（公告）日：	2022-02-01
发明（设计）人：	王青云;梁瑞宇;程佳鸣;孙世若;邹采荣;唐闺臣;谢跃;包永强	申请（专利权）人：	南京工程学院
主分类号：	G10L21/0216	分类号：	G10L21/0216;G10L21/0232;G10L25/03;G10L25/30;G06N3/04;G06N3/08;H04R25/00
代理公司：	南京睿之博知识产权代理有限公司 32296	代理人：	刘菊兰
地址：	211167 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度自适应网络助听器语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度域自适应网络的助听器语音增强方法，包括：分别从带噪语音和干净语音中提取帧级对数功率谱特征；构建基于编码器‑解码器结构的深度学习模型作为基线语音增强模型；在基线语音增强模型的基础上，构建基于深度域自适应网络的迁移学习语音增强模型；迁移学习语音增强模型在特征编码器和重建解码器之间引入域适配层和相对鉴别器；利用域对抗性损失训练迁移学习语音增强模型；在增强阶段，根据训练后的深度域自适应迁移学习语音增强模型，输入目标域带噪语音的帧级LPS特征，重建增强语音波形。本发明通过域对抗性训练来激励特征编码器生成域不变性特征，从而提高语音增强模型对未见噪声的适应性。

技术领域

本发明涉及语音增强技术领域，尤其涉及一种基于深度域自适应网络的助听器语音增强方法。

背景技术

在复杂环境下，目标声音通常淹没在噪声中，声音频谱分析的结果受到严重影响，使得自适应降频算法性能急剧下降。同时，听障患者的一些听障特征，如听觉阈值较高，短时特征辨认困难，以及退化的听觉外周，使得复杂场景下的语音理解成为影响使用率的普遍问题和难题。

经典的单通道噪声抑制器基于统计信号处理方法，其重点在于如何从含噪语音中有效估计噪声谱，从而对其进行抑制。典型算法包括谱减法、维纳滤波法、最小均方误差法、最小控制的迭代平均的噪声估计算法及其改进算法等。这类算法能够适应噪声水平并在平稳噪声下表现良好。但是这些算法难以处理真实场景中的非平稳噪声，并且这类算法中很多不合理的假设和经验参数的设置限制了它们性能的上限。

近年来基于数据驱动的语音增强算法取得重要进展，监督语音增强算法性能表现优异。然而，基于数据驱动的语音增强算法的关键问题之一是对未经训练的条件的泛化性。由于现实环境的复杂性，实际场景的声学环境可能与训练语料的声学环境有着很大的差异。解决泛化问题的常见手段是扩充训练数据，即使用尽可能多的声学条件训练模型。但对于复杂的现实环境，涵盖实际声学环境中无限潜在噪声与语言类型是不切实际的，环境中的噪声水平也是在不断变化的，因此监督语音增强模型的失配问题是始终存在的。

通过上述的描述，如何建立一种能够自适应环境变化的语音增强模型，是提高语音增强鲁棒性和性能的关键，对于提升听障患者的语音理解度和算法普适性具有重要研究意义。

申请号为CN110111803A的专利公开了一种基于自注意多核最大均值差异的迁移学习语音增强方法，在多核最大均值差异前端添加自注意力算法，通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异，实现对无标签的目标域的迁移学习。该专利通过迁移学习算法实现了未知噪声类型和未知信噪比的迁移，但仅实现了一种噪声到另一种噪声的迁移，其适用场景有局限性。其次，该算法在噪声类型和信噪比均不匹配的情形下迁移效果有限。而在本发明中，将多核最大均值差异与域对抗性训练相结合，通过对抗性损失引导模型学习域不变特征，实现了多种噪声到多种噪声的迁移，且在噪声类型和信噪比均不匹配的情形下有明显的迁移效果。

申请号为CN110570433A的专利公开了基于生成对抗网络的图像语义分割模型构建方法和装置，该方法使用分割模型训练源域数据集，再使用生成对抗网络将源域数据集转换为新的目标域数据集，并使用新的目标域数据集微调源域分割模型。该专利主要应用于图像语义分割领域，与本专利的应用场景有较大区别。其次，在方法上，该专利是先通过生成对抗模型对从源域数据集中所提取出的图像与目标域数据集进行对抗训练，生成新的目标域数据集，并在新的数据集上微调原模型。而在本专利中，则是在原模型的训练过程中引入对抗性损失以引导模型产生域不变特征，从而实现对目标域的迁移。

论文《利用生成噪音提高语音增强方法的泛化能力》主要研究的是利用生成对抗网络生成多种噪声类型，以提高训练集噪声类型的多样性，从而提升语音增强的泛化性。该论文与本专利的算法有一定区别，本专利的算法不是通过增加训练噪声的类型来提升算法对未见噪声的泛化性，而是利用迁移学习的算法引导模型适应目标域的数据，从而提升对目标域未见噪声的增强效果。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京工程学院，未经南京工程学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010847510.8/2.html，转载请声明来源钻瓜专利网。

上一篇：雷达可靠度评估方法、装置、电子设备及可读存储介质
下一篇：用于房屋建筑的节能保温幕墙

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度域自适应网络的助听器语音增强方法有效

专利文献下载