[发明专利]一种分频段切换CMN非线性函数的频域语音盲分离方法无效

专利信息
申请号: 201210022621.0 申请日: 2012-02-01
公开(公告)号: CN102543098A 公开(公告)日: 2012-07-04
发明(设计)人: 林秋华 申请(专利权)人: 大连理工大学
主分类号: G10L21/02 分类号: G10L21/02
代理公司: 大连理工大学专利中心 21200 代理人: 梅洪玉;关慧贞
地址: 116024*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 频段 切换 cmn 非线性 函数 语音 分离 方法
【说明书】:

技术领域

发明涉及一种语音增强方法,特别是涉及一种频域语音盲分离方法。

背景技术

语音识别和内容理解是计算机感知与决策、无人驾驶等国家关键技术中的重要功能。然而,由于自然环境下的语音常常受到环境噪声、多人多方对话等干扰,其信噪比和可懂度大为降低,严重时可造成语音识别和内容理解失败。所以,消除各种语音干扰(即语音增强)是语音信号处理的首要环节。因为语音和噪声特性复杂多变,人们一直在探索稳定、有效的语音增强方法,但至今仍面临巨大挑战。

传统的语音增强方法包括自适应滤波、谱减法、波束形成等。这些方法通常需要准确的先验信息(如噪声特性),有时因难于精确获得这些信息而导致性能下降。为此,对先验信息要求很低的盲源分离(简称盲分离)方法近年来已成为语音增强的研究热点。盲分离方法几乎不需要语音信号及其混合方面的任何信息,即能从多路语音混合信号(来自麦克风)中分离出各个语音信号,实现语音增强功能。现有研究结果表明,在强混响环境中,语音和麦克风之间的响应是一个高阶FIR滤波器。因此,实际语音混合信号需要用卷积混合模型进行描述,语音增强问题也就变成了盲分离解卷积问题。

目前,盲分离解卷积有时域和频域两种方法。顾名思义,时域方法在时域内学习FIR混合滤波器的逆,当滤波器阶数较低时分离性能较好。但在实际应用中,混合滤波器的阶数较高(如几千阶),逆滤波器的阶数也就很高,众多的学习参数致使时域方法计算量繁重、收敛困难。相比之下,频域方法通过短时傅里叶变换(short time Fourier transform,STFT)将时域卷积混合信号转化为各个频点的复数瞬时混合信号,这样只需对各频点语音混合信号进行瞬时盲分离,就可以实现解卷积。因此,频域方法具有运算量小、收敛速度快等优势,已成为语音增强的热点方法之一,也是本发明所采用的处理方法。

频域语音盲分离的一种常用做法包括三步:(1)在各频点对复数语音混合信号进行盲分离,(2)在各频点对各个语音分离信号进行排序,(3)对排序后各语音信号进行傅里叶反变换(inverse discrete Fourier transform,IDFT)得到时域语音分离信号。其中,第一步的复数语音混合信号盲分离最为关键,其性能好坏直接决定后续两步的成败。如果分离效果好,第二步的排序易于进行且正确率高,第三步获取的分离语音信噪比就高;如果分离不好,将造成排序错误和分离失败。目前,实现第一步频域语音分离的复数盲分离算法主要有,适于分离环形(circular)信号的CfastICA(complex fastICA),适于分离非环形(noncircular)信号的SUT(strongly uncorrelating transform),适于分离环形和非环形混合信号的JADE(joint approximate diagonalization of eigenmatrices)、KM(kurtosis maximization)、CMN(complex maximization of non-Gaussianity)、ACMN(adaptable CMN)等算法。非环形度测量结果表明,各频点语音信号为环形和非环形混合信号,因此,JADE、KM、CMN、ACMN等算法在分离语音信号时性能明显优于CfastICA和SUT。

然而,JADE、KM、CMN、ACMN等算法并非专门为分离频域语音信号而开发,也就是说,这些算法并未考虑语音的各种特性及其变化,所以尚不能直接提供令人满意的语音分离结果。例如,ACMN可针对源信号分布自适应调整非线性函数与之匹配,但仅限于对称分布源信号,而大多数语音为非对称分布信号,所以ACMN在分离语音时性能并不理想。同样,JADE和KM因为目标函数与语音特性不匹配,语音分离性能也不够好。最具潜力的分离算法当属CMN,其非线性函数较多,有的适合对称分布信号,有的适合非对称分布信号,所以可提供与语音分布相匹配的非线性函数,分离性能高于ACMN、JADE和KM等算法。但是,CMN算法存在的最大问题是,采用了单一非线性函数,不能适应不同语音在高斯性和对称性方面发生的变化,致使其在分离频域语音时性能存在较大波动。具体表现为,单一非线性函数CMN算法对有些语音混合信号的分离效果较好,但对另外一些语音混合信号的分离效果却较差。而且,即使在分离效果较好的情况下,单一非线性函数也不能适应语音信号在全频段发生的特性改变,致使分离性能上限受到限制。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210022621.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top