[发明专利]音频信号时间尺度和频率尺度缩放处理方法及设备有效
申请号: | 201110342174.2 | 申请日: | 2011-11-02 |
公开(公告)号: | CN102419981A | 公开(公告)日: | 2012-04-18 |
发明(设计)人: | 吴晟;李昙;林福辉;张本好;徐晶明 | 申请(专利权)人: | 展讯通信(上海)有限公司 |
主分类号: | G10L21/04 | 分类号: | G10L21/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 骆苏华 |
地址: | 201203 上海市浦东新区张*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 信号 时间 尺度 频率 缩放 处理 方法 设备 | ||
技术领域
本发明涉及音频信号处理领域,特别涉及一种音频信号时间尺度和频率尺度缩放处理方法及设备。
背景技术
在各种多媒体应用中,调整音频信号的时间尺度或频率高低具有广泛的需求。以调整重放速度为例,比如降低音频信号的重放速度,即拉长信号的时间尺度,可以有助于有听力或理解力障碍的人群提高听音的可懂度,也有助于外语初学者的学习,提高音频信号的重放速度,即压缩信号的时间尺度可帮助听者节省从录音中获取信息的时间;对音乐重放音速和音调的调整,还可以改变音乐的节奏和音色,获得独特的艺术效果;对于视频中的伴音,音频重放的音速调整,可以使得视频在加快或放慢回放速度的同时,使观众可以听到同步的,没有发生畸变的伴音。
直接对音频进行播放速度调整,即改变播放的采样率而不做其它任何处理,音频的音调会随着播放速度同步变化,造成音调和音色的变化。在降低音速时,声音会变低沉;在提高音速时,声音会变得尖锐,语音则表现为如加快语速的童声。为了能够让音频播放速度和音调互相独立调整,需要对音频信号进行处理。
传统的数字音频变速算法中,重叠相加(overlap add)技术可以实现音频时间尺度的独立变化,保留原有音调音色,但如果不进行波形的相似程度检测来确定重叠相加的时延,这种方法会带来帧连接处的相位不连续,从而引入一些节拍效应。而波形检测方法具有较强局限性,首先它的计算量较高,其次它只能处理具有明显稳定基音周期的信号。传统的时频变换算法可以处理包括语音和音乐的通用音频(general audio),它对时域上的原始数字音频进行重采样以变换采样率,然后将改变了采样率的数字音频转换到频域,获得数字音频的频谱,随后对频谱进行频谱搬移(frequency shift),将处理后的频谱变换回时域,这个算法一般用短时傅里叶变换(short time Fourier transform)实现。为能获得较高的处理音质,这类算法的短时傅里叶变换需要一次处理较长的音频,其计算量和存储量较大,并且对于帧间相位不连续也没有解决方法,处理音质受到很大限制。
更多关于数字信号音频变速处理的技术方案可以参考公开号为CN101202048A公开的“语音变速的方法”的专利申请文件,然而仍旧没有解决上述问题。
发明内容
本发明解决的问题是提供一种复杂度较低,处理质量高的音频信号时间尺度和频率尺度缩放处理方法及设备。
为解决上述问题,本发明实施例提供一种音频信号时间尺度和频率尺度缩放处理方法,包括:对输入音频信号进行采样以生成待处理音频时域信号,其中所述待处理音频时域信号的帧间间隔为L,每帧包括N个采样点;将所述待处理音频时域信号转换成待处理音频频域信号;获取所述待处理音频频域信号的频率和幅度;获取目标音频频域信号的重建频率和重建幅度;其中,按照变换率控制参数将所述待处理音频信号的频率转换为目标音频频域信号的重建频率;按照增益控制参数将所述待处理音频信号的幅度转换为目标音频频域信号的重建幅度;将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号;对所述目标音频时域信号进行重叠累加,得到输出点数为M的输出音频信号,其中,M不大于N/2。
可选地,所述对输入音频信号进行采样以生成待处理音频时域信号包括:基于所述输入音频信号组成相同帧长和相同采样点数目的第一向量和第二向量,其中所述第二向量和所述第一向量之间具有固定采样点的延迟。
可选地,所述固定采样点小于等于所述帧间间隔的采样点。
可选地,所述将所述待处理音频时域信号转换成待处理音频频域信号包括:对所述第一向量和第二向量分别作加窗离散傅里叶变换,得到相对应的第一频域信号和第二频域信号。
可选地,所述加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。
可选地,所述获取所述待处理音频频域信号的频率和幅度包括:
分别对所述第一频域信号和所述第二频域信号进行极坐标转换,以得到所述第一频域信号的第一相位和第一幅度以及所述第二频域信号的第二相位和第二幅度;
基于所述第一相位与所述第二相位之间的相位差计算所述待处理音频频域信号的频率;
根据所述第一幅度和/或所述第二幅度确定所述待处理音频频域信号的幅度。
可选地,所述获取目标音频频域信号的重建频率和重建幅度包括:
当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时,则所述目标音频频域信号在新索引处的重建幅度是根据所述增益控制参数和所述待处理音频信号在多个原索引处的幅度之和确定的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于展讯通信(上海)有限公司,未经展讯通信(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110342174.2/2.html,转载请声明来源钻瓜专利网。