[发明专利]用于包括通用音频和语音帧的音频信号的解码器有效
| 申请号: | 201180012623.5 | 申请日: | 2011-03-01 |
| 公开(公告)号: | CN102834863A | 公开(公告)日: | 2012-12-19 |
| 发明(设计)人: | 乌达·米塔尔;乔纳森·A·吉布斯;詹姆斯·P·阿什利 | 申请(专利权)人: | 摩托罗拉移动有限责任公司 |
| 主分类号: | G10L19/14 | 分类号: | G10L19/14 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;穆德骏 |
| 地址: | 美国伊*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 包括 通用 音频 语音 信号 解码器 | ||
技术领域
本公开一般地涉及语音和音频处理,并且更具体地,涉及用于处理包括通用音频和语音帧的音频信号的解码器。
背景技术
许多音频信号可以被分类为具有更多类语音特性或音乐、音调、背景噪声、回响语音等更典型的更多的通用音频特性。基于适用于处理语音信号的源滤波器模型的编译码器不会有效地处理通用音频信号。这样的编译码器包括线性预测代码化(LPC)编译码器,如码激励线性预测(CELP)代码器。语音代码器往往以低比特率处理语音信号。相反,诸如频域变换编译码器的通用音频处理系统不会很好地处理语音信号。公知的是,提供分类器或鉴别器来在逐个帧的基础上确定音频信号是更像语音还是不太像语音,并且基于该分类来将信号指引到语音编译码器或通用音频编译码器。能够处理不同信号类型的音频信号处理器有时被称为混合核心编译码器。
然而,分别地已知在与使用语音编译码器和通用音频编译码器的语音帧和通用音频帧的处理之间的转变来在已处理输出信号中产生音频间隙形式的不连续。这样的音频间隙通常可在用户接口处察觉,并且通常是不期望的。现有技术图1图示了输出帧序列中的在已处理语音帧与已处理通用音频帧之间产生的音频间隙。图1还在102处图示了输入帧的序列,该输入帧的序列可以被分类为语音帧(m-2)和(m-1),后面是通用音频帧(m)和(m+1)。样本索引n与该帧串内的在时间n处获得的样本相对应。出于该图的目的,n=0的样本索引与其中获得帧(m)的最后一个样本的相对时间相对应。这里,可以在已经累积了320个新样本之后处理帧(m),将该320个新样本与160个先前累积的样本组合,总共480个样本。在该示例中,采样频率是16kHz,并且对应的帧尺寸是20毫秒,但是许多采样速率和帧尺寸都是可能的。可以使用线性预测代码化(LPC)语音代码化来处理语音帧,其中,在104处图示了LPC分析窗口。已处理语音帧(m-1)在106处进行图示并且其前面是未图示的代码化的语音帧(m-2),与输入帧(m-2)相对应。图1还在108处图示了重叠的代码化的通用音频帧。通用音频分析/复合窗口与已处理通用音频帧的振幅包络相对应。已处理帧106和108的序列由于算法处理延迟而导致在时间上相对于输入帧102的序列偏移,该算法处理延迟在本文中还分别针对语音和通用音频帧被称为先行延迟(look-ahead delay)和重叠-添加延迟。图1中的108处的代码化的通用音频(m)和(m+1)的重叠部分提供了对110处的对应顺序已处理通用音频帧(m)和(m+1)的加性效应。然而,因为前一个帧是代码化的语音帧,所以在108处的代码化的通用音频帧(m)的导尾不与相邻的通用音频帧的拖尾重叠。因此,在108处的对应已处理通用音频帧(m)的前导部分具有减小的振幅。将代码化的语音和通用音频帧的序列组合的结果是在已处理输出帧的序列中的已处理语音帧和已处理通用音频帧之间的音频间隙,如110处的复合输出帧中所示。
标题为“Switching Between Coding Schemes”(诺基亚)的美国申请No.2006/0173675公开了一种混合代码器,该混合代代码器通过在逐帧的基础上在自适应多速率宽带(AMR-WB)编译码器与利用修正的离散余弦变换(MDCT)之间进行选择,例如,在MPEG 3编译码器或(AAC)编译码器之间进行选择,其中最适当的一个,来适应语音和音乐二者。诺基亚改善了不连续性的不利影响,该不连续性由于在使用具有几乎完美的重构性质(其特征在于混叠误差的最小化)的特殊MDCT分析/复合窗口从AMR-WB编译码器切换到基于MDCT的编译码器时产生的未抵消混叠误差而发生。诺基亚公开的特殊MDCT分析/复合窗口包括三个组成部分的重叠的基于正弦的窗口H0(n)、H1(n)和H2(n),其被应用于在语音帧之后的第一个输入音乐帧以提供改善的处理音乐帧。然而,该方法可能经历可能由于由H0(n)、H1(n)和H2(n)定义的关联谱区的欠建模(under-modeling)所引起的信号不连续。也就是说,可以提供的有限数目的比特需要跨三个区域分布,同时仍然要求产生在前一语音帧的结尾与区域H0(n)的起始之间的几乎完美的波形匹配。
对于本领域的技术人员来说,在结合下述附图仔细考虑本发明的以下具体实施方式时,本发明的各种方面、特征和优点将变得更加充分地显而易见。已经出于简单的目的简化了附图,并且附图不一定按比例绘制。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于摩托罗拉移动有限责任公司,未经摩托罗拉移动有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180012623.5/2.html,转载请声明来源钻瓜专利网。





