[发明专利]一种基于独立成分分析的HOA信号压缩方法有效

申请号：	202110518042.4	申请日：	2021-05-12
公开（公告）号：	CN113345448B	公开（公告）日：	2022-08-05
发明（设计）人：	曲天书;吴玺宏;徐佳浩	申请（专利权）人：	北京大学
主分类号：	G10L19/008	分类号：	G10L19/008;H04S3/02
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	司立彬
地址：	100871 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于独立成分分析 hoa 信号压缩方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于独立成分分析的HOA信号压缩方法，其步骤包括：1)对待处理的目标HOA信号进行分帧，然后使用独立成分分析算法ICA对分帧之后的每一帧信号进行分解；2)根据所有帧的主成分构成传输通道中的前景信号，根据ICA得到的每一帧的mixing矩阵W^‑1构成该帧的边信息，根据第i帧的mixing矩阵W^‑1得到的un‑mixing矩阵W对ICA算法初始化后处理第i+1帧信号；3)编码器利用前景信号和边信息恢复得到前景信号的HOA形式表示，并通过与该目标HOA信号比较得到HOA形式的背景通道；背景通道经过简化后通过设定数量的传输通道传输给熵编码器进行压缩编码，传输通道通过熵编码器压缩编码。

技术领域

本发明属于音频信号压缩技术领域，具体涉及一种基于独立成分分析的的高阶Ambisonics信号压缩方法。

背景技术

人们对于高品质的视听体验的追求由来已久，从数百年前的剧场到专门的音乐演出大厅，从3D电影到虚拟现实技术，人们对视觉与听觉体验的关注和品质要求与日俱增。这一趋势不仅仅体现在大型公共场所，同时也不断地向家庭与个人空间延伸。在视听技术的发展中，视频技术总是领先于音频技术的发展与普及，视频技术也吸引了人们更多的注意。同时，视频技术的发展与普及也提升了人们在音频方面的需求，从而带动了音频技术的发展。近年来，随着三维音频技术的出现，人们对于音频技术的发展也越来越关注。一方面，随着数字化技术的发展、计算机的普及、多媒体类型与资源的丰富和虚拟现实等技术的出现，消费者不断追求着更高品质的音频体验。另一方面，随着网络带宽以及计算机硬件能力的提升，三维音频技术的发展日趋成熟，高品质的音频体验的内涵不断拓宽。

三维音频技术是通过计算机、信号处理等方式对真实世界中声音事件和三维声场信息进行获取、处理、传输和渲染回放的音频技术。三维音频使声音具有强烈的空间感、包围感及沉浸感，给人以“声临其境”的非凡听觉体验。目前主流的三维音频技术主要分为波场合成(Wave Field synthesis,WFS)技术和HOA(Higher Order Ambisonics)技术两类。为了实现更好的音频听觉效果，两类方法都需要大量的通道用于记录更详细的声音场景的信息。虽然这种基于场景的三维音频信号采样和存储更加利于音频信号空间信息的保存和传输，但随着通道数量的增加将会激增海量数据。对现有传输和存储技术来说，这些海量的数据带来了技术瓶颈，也限制了三维音频技术的推广。因此一种高效的三维音频压缩编码的算法的提出迫在眉睫。基于场景的三维音频的高效编解码技术应当根据三维声场空间感知的特性，对通道间空间信息的冗余进行分析并压缩，在保持三维音频空间感的同时极大地压缩三维音频数据的体积。一种高效的三维音频压缩编码算法对三维音频的发展和实际推广将会产生重要的作用并具有巨大的价值。不仅如此，高效的三维音频数据压缩算法将为三维音频服务布局的实施与推广打下坚实基础。

在3D音频的主要技术中，HOA技术因为其在录制、编码中与回放阶段的扬声器布局无关的性质和HOA格式数据的可旋转特性，从而在进行三维音频回放时具有更高的灵活性，因而也得到了更为广泛的关注和研究。在对HOA数据进行压缩编码的研究中，早期的一些工作是直接将一般的音频编码技术(如AAC)直接应用于HOA数据的各个通道，这种不考虑通道间相关性的压缩方法无法消除通道间的冗余信息，因此随着通道数量的急剧增长，其编码音频的码率也会极大地增加。近期的研究工作则更多地考虑通道间的信息冗余。DirAC算法其通过对HOA系数的分析，以声场的方向、弥散程度和一路单通道信号对声场进行描述。该方法原本只适用于一阶Ambisonics信号，后续工作通过对空间进行分片，将其扩展到高阶Ambisonic信号中。但是，该方法原本是一种声场的重放技术，应用于HOA信号的压缩时不十分恰当。MPEG组织也提出了适用于3D音频的MPEG-H 3D Audio标准，其中包含HOA信号压缩工作。但MPEG-H标准仅给出传输格式标准，而并未给出具体的实现算法。现有的公开工作中，加利福尼亚大学圣巴巴拉分校的Sina Zamani等研究者使用SVD实现了MPEG-H标准，但信号帧之间存在平滑性不佳的问题，影响主观听感。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110518042.4/2.html，转载请声明来源钻瓜专利网。

上一篇：电调天线下倾角的显示装置及电调天线
下一篇：一种环保型生活垃圾免分拣处理设备

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于独立成分分析的HOA信号压缩方法有效

专利文献下载