[发明专利]一种多声源环境下的基于听觉中枢系统的语音分离方法在审

申请号：	201410130892.7	申请日：	2014-04-02
公开（公告）号：	CN103903632A	公开（公告）日：	2014-07-02
发明（设计）人：	罗元;张毅;胡章芳;童开国;徐晓东	申请（专利权）人：	重庆邮电大学
主分类号：	G10L21/0272	分类号：	G10L21/0272
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	刘小红
地址：	400065 ***	国省代码：	重庆;85
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种声源环境基于听觉中枢系统语音分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多声源环境下的基于听觉中枢系统的语音分离方法，其特征在于包括以下步骤：

101、在Matlab平台上建立一个模拟听觉中枢系统的语音分离模型，其中所述语音分离模型包括听觉外周模型和语音提取模型，所述听觉外周模型用于根据N路语音信号的频率进行区分成低频段信号、高频段信号，所述语音提取模型用于对低频段信号、高频段信号的特征参数信息进行提取；所述语音提取模型包括同侧的内侧上橄榄模型MSO、同侧的外侧上橄榄模型LSOi、异侧的外侧上橄榄模型LSOc，然后低频段信号传输给同侧的内侧上橄榄模型MSO，将高频段信号分别传输给MSO、LSOi和LSOc，所述听觉外周模型对语音信号进行预加重、加窗以及分帧预处理，获得各个语音信号语音帧上的时域信号x(n)；

102、将步骤101得到的时域信号x(n)通过离散的Fourier变换获得对应的线性频谱其中：e是自然对数的底数，j是虚数单位。n表示语音信号的个数，N表示离散傅里叶变换的次数。0≤n,k≤N-1，并将线性频谱利用Gammatone滤波器组获取Mel频谱；

103、将步骤102获得的Mel频谱求对数能量获得对数频谱其中：0≤m<M,H_m(k)表示在语音信号频谱范围内布置的带通滤波器组，并采用离散余弦变换得到Gammatone系数c(n)，所述Gammatone系数c(n)加上差分倒谱参数为语音信号的特征参数V；

104、建立重合神经元模型，所述重合神经元模型用于对语音信号的双耳时间差ITD和双耳水平差ILD进行空间定位，所述重合神经元模型包括通用突触模型和细胞体模型，所述通用突触模型包括内毛细胞中神经递质的数量q(t)、渗透率k(t)，裂隙中神经递质的数量c(t)，再生库中神经递质的数量w(t)以及神经发放的概率p(t);所述细胞体模型采用LIF模型，然后将步骤103中的特征参数V输入重合神经元模型完成语音信号的双耳时间差ITD和双耳水平差ILD信息的加权映射；

105、建立听觉外周反演模型，所述听觉外周反演模型用于对语音信号进行分离；将步骤104中得到的语音信号的双耳时间差ITD和双耳水平差ILD信息的加权映射信息传输给听觉外周反演模型的脑下丘Onset神经细胞模型完成语音信号的分离。

2.根据权利要求1所述的多声源环境下的基于听觉中枢系统的语音分离方法，其特征在于：步骤102中的Gammatone滤波器的函数表达式为式中，n表示滤波器的阶数，根据滤波特性选取n=4；θ代表Gammatone滤波器的起始相位；当t<0时，u(t)=0,当t>0时，u(t)=1；b=b₁.ERB(f₀)，ERB(f₀)代表Gammatone滤波器的等效矩阵带宽，并且它和Gammatone滤波器中心频率f₀关系：ERB(f₀)=2.47+0.108f₀。

3.根据权利要求1所述的多声源环境下的基于听觉中枢系统的语音分离方法，其特征在于：步骤103中的差分倒谱参数为n表示初始语音信号的个数，c与d是某帧语音信号的参数，c与d是某帧语音信号的参数，k是常数2。

4.根据权利要求1所述的多声源环境下的基于听觉中枢系统的语音分离方法，其特征在于：步骤104中的LIF模型包括一个电阻R以及一个与之并联的被外来电流I(t)驱动的电容C，驱动电流由两部分组成。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410130892.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多声源环境下的基于听觉中枢系统的语音分离方法在审

专利文献下载