[发明专利]音频编码器和解码器有效

申请号：	201580053303.2	申请日：	2015-10-01
公开（公告）号：	CN107077861B	公开（公告）日：	2020-12-18
发明（设计）人：	耶伦·科庞;拉尔斯·维尔默斯;托尼·希尔沃宁;克里斯托弗·薛林	申请（专利权）人：	杜比国际公司
主分类号：	G10L21/0364	分类号：	G10L21/0364;G10L19/008
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	杜诚;李春晖
地址：	荷兰阿***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频编码器解码器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开内容属于音频编码领域，特别地，本公开内容涉及空间音频编码领域，其中音频信息由包括至少一个对话对象的多个音频对象来表示。特别地，本公开内容提供了一种用于在音频系统中的解码器中增强对话的方法和装置。此外，本公开内容提供了一种用于对这样的音频对象进行编码以使得对话能够被音频系统中的解码器增强的方法和装置。

相关申请的交叉引用

本申请要求于2014年10月1日提交的美国临时专利申请第62/058,157号的优先权，该美国临时专利申请的全部内容通过引用并入本文。

技术领域

本文的公开内容一般涉及音频编码。具体地，本公开内容涉及用于在音频系统中的解码器中增强对话的方法和装置。本公开内容还涉及用于对包括表示对话的至少一个对象的多个音频对象进行编码的方法和装置。

背景技术

在常规音频系统中，采用基于声道的方法。每个声道可以例如表示一个扬声器或一个扬声器阵列的内容。用于这样的系统的可能的编码方案包括离散多声道编码或参数编码诸如MPEG环绕(MPEG Surround)。

最近，已经开发了一种新的方法。这种方法是基于对象的，这在对复杂音频场景进行编码时(例如在电影院应用中)是有利的。在采用基于对象的方法的系统中，三维音频场景由音频对象以及其相关联的元数据(例如，位置元数据)来表示。这些音频对象在音频信号的播放期间在三维音频场景中移动。该系统还可以包括所谓的声床声道(bedchannels)，其可以被描述为直接映射到例如上述常规音频系统的某些输出声道的信号。

对话增强是用于相对于其他分量(诸如音乐、背景声音和声音效果)而增强或增加对话水平的技术。因为对话可以由单独的对象表示，所以基于对象的音频内容可以很好地适用于对话增强。然而，在一些情况下，音频场景可能包括大量的对象。为了降低表示音频场景所需的复杂度和数据量，可以通过减少音频对象的数量，即通过对象聚类(objetclustering)，来简化音频场景。这种方法可能在一些对象聚类中引入对话与其他对象之间的混合。

通过在音频系统中的解码器中包括用于这种音频聚类的对话增强可能性，解码器的计算复杂度可能增加。

附图说明

现在将参考附图描述示例实施方式，在附图中：

图1示出了根据示例性实施方式的用于在音频系统中增强对话的高质量解码器的一般化框图，

图2示出了根据示例性实施方式的用于在音频系统中增强对话的低复杂度解码器的第一一般化框图，

图3示出了根据示例性实施方式的用于在音频系统中增强对话的低复杂度解码器的第二一般化框图，

图4描述了根据示例性实施方式的用于对包括表示对话的至少一个对象的多个音频对象进行编码的方法，

图5示出了根据示例性实施方式的用于对包括表示对话的至少一个对象的多个音频对象进行编码的编码器的一般化框图。

所有附图是示意性的并且通常仅示出了为了阐明本公开内容所必需的部分，而其他部分可能会被省略或仅仅被暗示。除非另有说明，否则在不同的附图中相同的附图标记表示相同的部件。

具体实施方式

鉴于上述内容，目的在于提供旨在降低解码器中的对话增强的复杂度的编码器和解码器以及相关联的方法。

I.概述-解码器