[发明专利]一种语音交互中多路语音的白化方法及其装置有效
| 申请号: | 202010339154.9 | 申请日: | 2020-04-26 |
| 公开(公告)号: | CN111599375B | 公开(公告)日: | 2023-03-21 |
| 发明(设计)人: | 关海欣 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
| 主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0232;G10L21/0208;G10L15/22;G10L15/20 |
| 代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 安琪 |
| 地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 交互 中多路 白化 方法 及其 装置 | ||
本发明提供了一种语音交互中多路语音的白化方法及其装置,包括:将输入多路语音数据转换到频域,获取语音频域数据;将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵;重复迭代执行上述步骤,当检测到唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据。
技术领域
本发明涉及语音交互技术领域,特别涉及一种语音交互中多路语音的白化方法及其装置。
背景技术
目前,在语音交互中,通常需要先唤醒设备,唤醒设备后通过唤醒词对应的语音数据可以计算出空间滤波器系数,对后继信号做空域滤波可提高语音质量,提高语音交互成功率。多通道信号可以通过计算信号、噪声协方差阵估计空间滤波器,但信号和噪声通常是混叠的,需要通过估计方法估计时频点归属,通过白化处理,可以增强不同方向信号的可分性,从而提高信号、噪声协方差计算准确性,提高空间滤波器性能。白化通常做法是拿到足够的信号、噪声数据,全局处理,往往数据越多白化矩阵越稳定,效果越好,但这种做法最大的缺点是延迟较大,瞬间计算量大,且需缓存大量数据,工程应用并不方便。
发明内容
本发明提供一种语音交互中多路语音的白化方法及其装置,用以解决白化累积数据多,计算量大,造成延迟的情况。
一种语音交互中多路语音的白化方法,其特征在于,包括:
步骤1:将输入多路语音数据转换到频域,获取语音频域数据;
步骤2:将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;
步骤3:继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对缓存的语音频域数据进行白化处理;
步骤4:重复迭代执行步骤1至步骤3,当检测到唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据。
作为本发明的一种实施例:所述将输入多路语音数据转换到频域,获取语音频域数据,包括:
通过所述唤醒设备采集所述多路语音;
将所述多路语音进行分帧加窗处理,获取所述分帧后多路语音的频域特征,确定所述多路语音的语音频域数据。
作为本发明的一种实施例所述使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,包括:
获取缓存的时间数据T1;
按照下式(1)计算频带协方差矩阵:
其中,Y表示各频带协方差矩阵,所述t表示时刻;所述f表示频带;所述yf,t表示t时刻频带向量;所述yHf,t表示t时刻共轭对称下的频带向量;所述H表示共轭对称。
作为本发明的一种实施例:所述当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,包括:
基于矩阵求逆引理,按照下式(2)计算计算各个频带逆矩阵;
其中,所述表示协方差矩阵的逆矩阵;所述yf,t表示t时刻的频带向量;所述表示t-1时刻的逆矩阵;所述yf,t-1表示t-1时刻的频带向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010339154.9/2.html,转载请声明来源钻瓜专利网。





