[发明专利]基于压缩感知和稀疏表示的语音编码方法有效
申请号: | 201410026207.6 | 申请日: | 2014-01-21 |
公开(公告)号: | CN103778919A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 杨震;李尚靖 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L19/04 | 分类号: | G10L19/04;G10L19/18 |
代理公司: | 江苏爱信律师事务所 32241 | 代理人: | 刘琦 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种压缩感知框架下的语音编码方法,利用压缩感知框架下行阶梯矩阵投影后观测序列可保留部分语音特性的特点,采用稀疏表示对观测序列进行数学模型建立;在训练阶段,先利用K奇异值分解方法对大量语音行阶梯投影后的观测序列进行训练,得到一个可用于实时观测序列稀疏表示的码本字典;在编码阶段,利用字典内的原子,采用正交匹配追踪算法对实时观测序列数学建模,仅对少量选择原子的位置和幅度进行编码并传输;解码端只需有相同字典就可恢复观测序列,并利用基追踪算法重构语音信号,后置低通滤波器提高重构语音的人耳听觉特性。该发明可以在压缩感知框架下有效地对语音信号进行编码传输,降低编码传输码率,并且保证良好的重构语音性能。 | ||
搜索关键词: | 基于 压缩 感知 稀疏 表示 语音 编码 方法 | ||
【主权项】:
1.一种基于压缩感知和稀疏表示的语音编码方法,其特征在于,该方法包括以下步骤:a)通过K奇异值分解算法训练得到一个适合语音信号观测序列的字典D;b)获得观测序列:在编码端对进入编码器的语音首先进行帧长为20~40ms的分帧处理,然后利用行阶梯矩阵作为投影矩阵,按照1:2或1:4的压缩比对每帧语音进行投影,得到每帧语音的观测序列y;c)利用稀疏表示对观测序列y进行数学建模,即利用正交匹配追踪算法,得到观测序列y在字典D中的稀疏表示,具体步骤如下:1)初始化:候选集合I初始化为空集,即I=()空集,残差r=y,稀疏系数γ=0,设置迭代初始次数i=1,迭代终止次数为K;2)根据下式求残差与字典D中的原子相关度最高的索引k:
,其中dk为字典D内第k个原子,Argmin表示使目标函数取最小值时的变量值;然后将所选原子索引k放入候选集合I内,
;3)根据下式更新稀疏系数:
,其中
为仅利用候选集合I内索引原子的字典,
为
的伪逆矩阵,
为仅利用候选集合I内原子的稀疏表示向量;然后根据下式更新残差:
;4)令i=i+1,如果i<K,则表明字典原子选取未完成,返回步骤2),否则观测序列稀疏表示循环结束,将最后更新得到的
作为观测序列y在字典D中的稀疏表示γ,进入步骤d),其中K为迭代终止次数,其取值为根据目标码率选择的原子个数;d)按照如下方法,分别对稀疏表示γ所需K个原子的位置和幅度进行编码:将字典D内的原子个数规定为2的指数幂,即
,根据p比特找到所需原子的位置,采用标准8比特脉冲调制编码作为原子幅度;e)语音信号观测序列的恢复:根据所述步骤d)中获得了稀疏表示γ所需K个原子的位置和幅度,在字典D中找到稀疏表示γ所需要的原子,然后将每个原子的向量与其幅度相乘,然后将得到的K个与幅度相乘后的原子向量相加,得到恢复出的语音信号观测序列;f)语音信号的重构:根据恢复的观测序列重构出语音信号;选择离散余弦基为语音信号稀疏基,采用基追踪算法作为重构算法,利用所述步骤e)恢复的语音信号观测序列重构出语音信号;g)对重构语音信号进行低通滤波:根据滤波器传递函数
,采用后置低通滤波器的方法对所述步骤f)重构的语音信号进行滤波后处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410026207.6/,转载请声明来源钻瓜专利网。