[发明专利]一种基于两级滤波的多步音频对象编解码方法有效
申请号: | 202110494630.9 | 申请日: | 2021-05-07 |
公开(公告)号: | CN113314131B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 胡瑞敏;胡晨昊;王晓晨;吴玉林;张灵鲲;柯善发;刘文可 | 申请(专利权)人: | 武汉大学 |
主分类号: | G10L19/02 | 分类号: | G10L19/02;G10L19/032;G10L19/26 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 两级 滤波 音频 对象 解码 方法 | ||
本发明公开了一种基于两级滤波的多步音频对象编解码方法。在编码阶段,首先将输入的多个音频对象信号进行时频变换;确定对象循环下混顺序并提取每步边信息,输出最终下混信号;通过第一级滤波器,去除残差信息中人耳无法感知的冗余成分;通过第二级滤波器,根据每个子带中残差信息的能量大小,保留前n个子带中的残差;经过二级滤波后的残差信息进行奇异值分解,大尺寸的残差矩阵被压缩为较小的矩阵;将最终混合信号,参数及残差分解矩阵合成码流。在解码阶段,首先利用分解的残差矩阵重构原始残差,然后根据边信息,将多个对象从下混信号中逐步剥离。本发明通过利用心理声学和子带能量信息,滤除残差信息中的次要成分,降低音频对象编码码率。
技术领域
本发明属于数字音频信号处理技术领域,具体涉及一种基于两级滤波的多步音频对象编解码方法,适用于码率有限条件下的多音频对象信号传输,允许在不同的码率要求下传输残差信息。
背景技术
下一代音频系统与以前的系统有两个不同的特点:沉浸感和个性化。对于沉浸感,空间音频技术如MPEG Surround[文献1]和NHK 22.2[文献2]可以提供三维音频再现。对于性化,音频系统应根据用户需要兼容不同的播放环境和设备。此外,个性化音频系统应支持交互式音频服务。但传统的空间音频内容是传递给所有用户,而不考虑环境、偏好和设备等因素。基于声道的框架使得下一代音频系统的个性化特性难以实现[文献3]。
为了克服上述缺陷,实现个性化,音频系统的框架由基于声道向基于对象转变。在基于对象的编码框架中,声音场景中的音频对象可以由单独的音频流表示。这种方法可以兼容不同的扬声器布局,并且可以根据用户交互进行调整。其中最具代表性的是德国知名研究机构Fraunhofer提出的空间音频对象联合编码技术(Spatial audio object coding,SAOC)[文献4]。该方法将频率划分为28个子带,提取每个子带的空间参数。通过这种方式,多个对象可以压缩成带有少量边信息的下混信号。然而,在同一个子带中使用相同的参数将导致频率混叠失真,一个音频目标信号将与其他目标信号成分混合。
有研究尝试利用残差信号来减少这些混叠的频率分量[文献5]。如果频率系数为1024,则每帧将有1024个残差数据需要记录。这使得未压缩的边信息数据量比传统的SAOC高38倍。为了减小残差的大小,有方法提出[文献6]仅提取0~5.5kHz频率区域的残差。但以上方法仅能良好恢复单个对象信号,其他对象信号仍然音质较差。[文献7]提出一种多步音频对象编码方法,将多个对象按照一定顺序循环下混,提取每个对象的残差信息,多个对象残差带来的数据激增采用奇异值分解(SVD)方法进行减低。然而,残差信息中仍然含有大量冗余成分,导致比特率较高。
文献1:Elfitri,I.,Muharam,M.,and Shobirin,M.:Distortion analysis ofhierarchical mixing technique on mpeg surround standard.In:InternationalConference on Advanced Computer Science and Information System.IEEE(2014).
文献2:Ando,A.:Conversion of multichannel sound signal maintainingphysical properties of sound in reproduced sound field.IEEE Transactions onAudio Speech and Language Processing 19(6),1467-1475(2016).
文献3:Walton,T.,Evans,M.,Kirk,D.,and Melchior,F.:Exploring object-based content adaptation for mobile audio.Personal and Ubiquitous Computing22(4),707-720(2018).
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110494630.9/2.html,转载请声明来源钻瓜专利网。