[发明专利]根据下混的音频场景的重构有效
申请号: | 201480029538.3 | 申请日: | 2014-05-23 |
公开(公告)号: | CN105229731B | 公开(公告)日: | 2017-03-15 |
发明(设计)人: | T·赫冯恩;H·普恩哈根;L·J·萨米尔森;L·维尔莫斯 | 申请(专利权)人: | 杜比国际公司 |
主分类号: | G10L19/008 | 分类号: | G10L19/008;H04S7/00 |
代理公司: | 中国国际贸易促进委员会专利商标事务所11038 | 代理人: | 宋岩 |
地址: | 荷兰阿*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 根据 音频 场景 | ||
1.一种用于对具有至少多个音频对象的音频场景的时间帧进行编码的方法,该方法包括:
接收N个音频对象(Sn,n=1,…,N)和关联的位置元数据其中N>1;
生成包括M个下混通道(Ym,m=1,…,M)的下混信号(Y),每个下混通道是N个音频对象中的一个或更多个音频对象的线性组合并且与位置定位符相关联,其中M>1;
针对每个音频对象:
基于与该音频对象相关联的位置元数据和下混通道的位置定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数(dn=(dn,1,…,dn,M));并且
针对每个频带:
以使通过对象增益(gn)重新调节的相关系数和下混信号的内积近似于时间帧中的音频对象的方
式来确定该对象增益;
以及生成包括下混信号、位置元数据和对象增益的比特流。
2.如权利要求1所述的方法,还包括从比特流中省略相关系数。
3.如权利要求1或2所述的方法,其中,相关系数是根据预定义规则来计算的。
4.如权利要求3所述的方法,其中:
位置元数据和位置定位符表示几何位置;并且
相关系数是基于多对几何位置之间的距离来计算的。
5.如权利要求4所述的方法,其中:
相关系数是基于诸如正弦-余弦平移法则之类的能量保持平移法则来计算的。
6.如在前权利要求中的任一个所述的方法,其中,每个相关系数相对于频率是恒定的。
7.如在前权利要求中的任一个所述的方法,其中,下混通道是以相关系数作为权重计算出的N个音频对象中的一个或更多个音频对象的线性组合(Ym=Σndm,nSn,m=1,...,M)。
8.如在前权利要求中的任一个所述的方法,其中,不同频带(Fb,b=1,…,B)中的对象增益是独立地确定的(gn=gn(fb),b=1,…,B)。
9.如在前权利要求中的任一个所述的方法,其中:
生成比特流的步骤包括下混信号的有损编码,所述编码与重构处理相关联;并且
至少一个音频对象的对象增益是以使通过该对象增益重新调节的相关系数和重构下混信号的内积近似于时间帧中的音频对象的方式来确定的。
10.一种音频编码系统(100),被配置为将至少包括N>1个音频对象的音频场景的时间帧编码为比特流,
每个音频对象(Sn,n=1,…,N)与位置元数据相关联,
该系统包括:
下混器(101),用于接收音频对象并且基于其来输出包括M个下混通道(Ym,m=1,…,M)的下混信号,其中M>1,每个下混通道是N个音频对象中的一个或更多个音频对象的线性组合,并且每个下混通道与位置定位符相关联;
下混编码器(501),用于对下混信号进行编码并且将此包括在比特流中;
上混系数分析器(104;402,403),用于接收音频对象的空间元数据和下混通道的空间定位符并且基于其来计算指示出该音频对象和每个下混通道的空间相关度的相关系数(dn=(dn,1,…,dn,M));以及
元数据编码器(106),用于对位置元数据和对象增益进行编码并且将这些包括在比特流中,
其中,上混系数分析器还被配置为,针对音频对象的频带,接收与该音频对象有关的相关系数(dn)和下混信号(Y)并且被配置为基于其以使通过对象增益(gn)重新调节的相关系数和下混信号的内积近似于时间帧的该频带中的音频对象的方式来确定该对象增益。
11.如权利要求10所述的音频编码系统,其中,上混系数分析器存储用于计算相关系数的预定义规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜比国际公司,未经杜比国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480029538.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有动态可变的线圈形状的感应线圈
- 下一篇:多识别器语音识别