[发明专利]使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质有效
申请号: | 201880070135.1 | 申请日: | 2018-04-13 |
公开(公告)号: | CN111386568B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 康斯坦丁·施密特;克里斯蒂安·乌勒;贝恩德·埃德勒 | 申请(专利权)人: | 弗劳恩霍夫应用研究促进协会 |
主分类号: | G10L21/0388 | 分类号: | G10L21/0388;G10L25/30;G10L19/005 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋融冰 |
地址: | 德国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 神经网络 处理器 生成 带宽 增强 音频 信号 装置 方法 计算机 可读 存储 介质 | ||
一种用于从具有输入音频信号频率范围的输入音频信号(50)生成带宽增强的音频信号的装置,包括:原始信号发生器(10),被配置用于生成具有增强频率范围的原始信号(60),其中增强频率范围不包括在输入音频信号频率范围中;神经网络处理器(30),被配置用于使用输入音频信号的输入音频信号频率范围和经训练的神经网络(31)生成增强频率范围的参数表示(70);以及原始信号处理器(20),用于使用增强频率范围的参数表示(70)处理原始信号(60),以获得具有增强频率范围中的频率分量的经处理的原始信号(80),其中经处理的原始信号(80)或经处理的原始信号和输入音频信号的输入音频信号频率范围表示带宽增强的音频信号。
技术领域
本发明涉及音频处理,以及特别地,涉及用于音频信号的带宽增强技术,诸如带宽扩展或智能间隙填充。
背景技术
当今最常用的用于移动语音通信的编解码器仍然是AMR-NB,其仅对从200到3400Hz的频率(通常称为窄频带(NB))进行编码。然而,人类语音信号具有宽得多的带宽,尤其是摩擦音通常具有其大部分能量在4kHz以上。限制语音的频率范围不仅听起来不太舒适,而且也不太容易理解[1,2]。
像EVS[3]的现有技术音频编解码器能够对更宽的信号频率范围进行编码,但是使用这些编解码器将需要改变包括接收设备的整个通信网络。这是巨大的努力并且已知持续了若干年。盲带宽扩展(BBWE-也称为人工带宽扩展或盲带宽扩张)能够扩展信号的频率范围而无需额外的位。它们仅被应用于解码信号,并且不需要网络或发送设备的任何适配。虽然是窄频带编解码器的有限带宽问题的吸引人的解决方案,但是许多系统未能改善语音信号的质量。在对最新带宽扩展的联合评估中,12个系统中只有四个被管理显著地改善对于所有测试的语言的感知的质量[4]。
遵循语音产生的源滤波器模型,大多数带宽扩展(盲目式或非盲目式)具有两个主要构造块-激励信号的生成和声道形状的估计。这也是提出的系统遵循的方法。用于生成激励信号的常用技术是频谱折叠、平移或非线性处理。声道形状可由高斯混合模型(GMM)、隐马尔可夫模型(HMM)、神经网络或深度神经网络(DNN)生成。这些模型根据对语音信号计算的特征预测声道形状。
在[5]和[6]中,通过频谱折叠生成激励信号,以及声道滤波器由HMM实现为时域中的全极点滤波器。首先,通过矢量量化创建包括上频带语音信号的帧上计算的线性预测系数(LPC)的码本。在解码器侧,对解码的语音信号计算特征,以及给定特征,使用HMM对码本条目的条件概率进行建模。最终的包络是所有码本条目的加权和,概率是权重。在[6]中,神经网络额外地强调摩擦声。
在[7]中,激励信号也通过频谱折叠生成,以及声道通过神经网络建模,神经网络输出在Mel滤波器组域中应用于折叠的信号的增益。
在[8]中,DNN用于预测频谱折叠的激励信号的频谱包络(在此称为成像的相位)。[9]中的系统还使用频谱折叠的激励信号,并且通过包括LSTM层的DNN整形包络。使用音频的若干帧作为用于DNN的输入,这两个系统具有对于实时电信来说过高的算法延迟。
最近的方法使用类似于WaveNet[11]的体系结构,以0到32ms的算法延迟直接对时域中丢失的信号进行建模[10]。
当语音被发送用于电信时,其频率范围通常受到例如频带限制和下采样的限制。如果这种频带限制是从信号中去除太多带宽,则语音的感知的质量显著降低。克服这个问题的一种方法是通过发送更多的带宽暗示编解码器的变化。这通常涉及整个网络基础设施的改变,这是非常昂贵的并且可以持续若干年。
扩展频率的另一方式是通过带宽扩展人为地扩展频率范围。在带宽扩展为盲目的情况下,没有边信息从编码器传送到解码器。不必对发送基础设施进行改变。
发明内容
本发明的目的是提供一种用于生成带宽增强的音频信号的改进的概念。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于弗劳恩霍夫应用研究促进协会,未经弗劳恩霍夫应用研究促进协会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880070135.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于治疗高钾血症的甘草次酸衍生物
- 下一篇:电子箔