[发明专利]一种基于空域相关性的二维时频掩模估计建模方法有效
申请号: | 201810955158.2 | 申请日: | 2018-08-21 |
公开(公告)号: | CN109166590B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 许春冬;龙清华;应冬文;许瑞龙;周静 | 申请(专利权)人: | 江西理工大学 |
主分类号: | G10L21/0224 | 分类号: | G10L21/0224;G10L21/0232 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 341000 江*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 空域 相关性 二维 时频掩模 估计 建模 方法 | ||
本发明涉及一种基于空域相关性的二维时频掩模估计建模方法,包括:针对麦克风阵列采集到的语音信号;计算某时频点下某对麦克风之间相位差以及被目标声源支配情况下相位差;由两相位差定义频点到目标声源的距离;采用类正态分布法计算此频点被目标声源支配的概率;将频点被目标声源支配的转移概率在时间、频率维度进行独立展开、分析;进行空域相关性时频交织建模;表示出此二维交织模型的整体参数集;表示出全局概率密度函数,将建模问题转换为按极大似然准则估计整体参数集,并精确估计语音源的掩模。该方法以空域信息为特征,将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,准确估计语音源的掩模,得到很好的语音分离效果。
技术领域
本发明涉及语音信号分离处理技术领域。尤其涉及一种基于空域相关性的二维时频掩模估计建模方法。
背景技术
时频掩模是语音分离常用的手段目标,时频掩模表征语音信号在时频域内存在与否的状态矩阵。理想时频掩模保留了混合信号中由目标语音主导的时频分量,去除由噪声主导的时频点分量,从而实现目标语音信号和噪声信号的主要成分的分离。
常见的时频掩模有理想二值掩模和理想浮值掩模,前者的状态矩阵中的每个元素取值仅为0或1,表示各时频点上语音信号存在与否的硬性判决;后者采用0和模为1的单位复数表示语音存在与否。理想二值掩模为硬判决掩模分离,在很大程度上容易造成频谱丢失;理想浮值掩模则考虑了空域信息对于提高语音的感知质量的重要作用。研究表明空域信息对于提高语音的感知质量具有重要作用,但是理想浮值掩模的学习难度也相对较大,目前尚未广泛应用到监督性语音分离中。
目前大部分时频掩模估计方法也只是考虑了单个频点上的支配情况,根据单个频点的空域信息判断时频点被哪个声源支配。由于语音频谱存在二维相关性,它使得相邻频点支配声源之间也存在某种相似性,而传统的方法忽略了这种相似性。
空域信息是指示目标语音源的基本标签且空域信息散布在各对麦克风接收信号的频域相位差上。因此,它可以在频域指示目标源的能量分布状况。基于空域相关性的时频掩膜估计方法充分利用了空域信息,通过将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,精确估计语音源的掩模。
发明内容
本发明的目的在于克服现有时频掩膜技术中忽略了空域相关性的缺陷,试图以空域信息为特征,将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,从而可以更加精确的估计出语音源的掩模。
为了实现上述目的,本发明提出了一种基于空域相关性的二维时频掩模估计建模方法,包括:
步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理,所述的麦克风阵列包括K对麦克风;
步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元;
步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差,所述M等于K(K-1)/2,K表示阵列拥有麦克风的数量;
步骤四、计算在假设某频点被目标声源支配的情况下,M对麦克风之间的相位差;
步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离;
步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率;
步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率;
步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图;
步骤九、根据以上二维交织建模表示出模型的整个参数集;
步骤十、计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西理工大学,未经江西理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810955158.2/2.html,转载请声明来源钻瓜专利网。