[发明专利]一种基于张量分解的多声道音频信号压缩方法有效
申请号: | 201210579570.1 | 申请日: | 2012-12-27 |
公开(公告)号: | CN102982805A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 王晶;谢湘;匡镜明 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G10L19/008 | 分类号: | G10L19/008 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 张量 分解 多声道 音频 信号 压缩 方法 | ||
技术领域
本发明涉及一种多声道音频信号压缩方法,尤其是一种基于张量分解的多声道信号压缩方法,属于音频信号处理技术领域,尤其是空间音频编解码技术领域。
背景技术
在数字音频应用领域,多声道音频能够提供临场感的环绕声音感受,这是传统立体声信号所不能提供的。随着人们对数字音频信号的高享受的需求,高效的音频信号压缩方法越来越被研究者重视。为了产生空间环绕的效果,多声道信号编解码技术例如Dolby AC-3,DTS以及MPEG Surround等相继被提出,这些方法在编码端大多需要传输由多声道下混后的单声道或立体声信号,并提取空间音频参数一并传输,以便在解码端再上混为多声道信号。
随着虚拟现实、3D游戏、高质量视频会议等交互式音频应用的发展,多声道音频信号需要以尽可能低的速率压缩传输,而声道数目的增多(甚至于几百声道)难以有较大程度的压缩效果,如何利用声道间和声道内的相关性进行高效压缩是多声道音频编码领域的关键问题。多声道信号相比传统的单声道和立体声信号研究的影响因素增多,至少涉及声道、时域、频域三种因素,构成一种高阶信号空间,适合用张量结构表示和分析,进而通过构建张量信号利用张量分解方法进行低秩近似达到压缩的目的。
张量分析方法近十年来在三维图像处理、说话人识别、数据挖掘等信号处理领域已有广泛应用,例如在语音信号的特征提取方面,Jeong等人提出了利用张量分析对语音信号的训练模型状态、特征维度、说话人、噪声空间进行多线性奇异值分析的方法;Mesgarani等人提出了声音信号从耳蜗到大脑皮层阶段产生的多尺度暂态语谱图特征,利用多线性降维技术进行处理,可以在低信噪比或者高回响的环境下或得较高的分辨率;我国公开号为CN102592593A(公开日为2012年7月18日)的专利“一种考虑语音中多线性群组稀疏性的情绪特征提取方法”,考虑了语音信号中包括的时间、频率、尺度、方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取。而在多声道音频信号处理领域,尚未见有运用张量分解进行空间音频表示和压缩的应用。
发明内容
本发明的目的是为了充分表征和高效压缩多声道音频信号,提出了一种基于张量分解的多声道音频信号压缩方法,解决了传统多声道音频编解码只能用矢量或矩阵代数进行运算,不能同时考虑声道和时频的多因素影响的问题。
为了实现上述目的,本发明方法的基本思路是:对多声道音频信号,首先在编码端,将每个声道的音频信号通过交叠分帧和时频变换,对变换后的多声道信号建立包含声道、时域和频域的三阶张量信号,并利用张量分解进行低秩近似,得到低秩核张量和三个低秩投影矩阵,其中低秩核张量用于量化编码压缩,三个低秩投影矩阵用于训练过程,在解码端,将解量化和解码后的低秩核张量结合事先训练好的三个低秩投影矩阵,通过张量信号重构过程得到变换域的多声道信号,最后对每个声道信号进行反变换,并通过交叠相加恢复原来的每个声道的音频信号。
本发明所述一种基于张量分解的多声道音频信号压缩方法,包括以下步骤:
步骤一:在编码端,对待处理的声道数目为R的多声道音频信号,首先将每个声道的音频信号采用汉明窗进行分帧,帧长为L,帧移为M,从而把每个声道的音频信号分成N帧,顺序排列后得到每个声道的帧序列;
步骤二:对每个声道,对分帧后的每帧音频信号分别进行时频变换,每帧音频信号经过该时频变换后得到长度为S的频域系数;
若每帧音频信号补零后进行时频变换,则S大于L;
若每帧音频信号直接进行时频变换,则S等于L;
若每帧音频信号直接进行时频变换后只保留能量较大的频域系数,则S小于L;
若每帧音频信号补零后进行时频变换后只保留能量较大的频域系数,则S的大小视具体补零的长度以及保留频域系数的个数而定;
所述的时频变换为正交变换;
所述的时频变换优选采用DCT离散余弦变换;
步骤三:对每个声道,将每一帧所对应的长度为S的频域系数作为矩阵的每一行,即将N帧音频信号的频域系数构成一个大小为N×S的系数矩阵;
将所有R个声道的系数矩阵进行依次排列,构成大小为R×N×S的三阶张量信号X,所述的三阶分别称为:声道序列阶、帧序列阶、频域系数阶;
步骤四:对步骤三构造的三阶张量信号X进行张量分解,即分解为:
G×1U(1)×2U(2)×3U(3) (1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210579570.1/2.html,转载请声明来源钻瓜专利网。