[发明专利]一种语音处理方法、装置和用于语音处理的装置在审
申请号: | 202110431564.0 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113299301A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 崔国辉 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L21/0264;G10L25/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 处理 方法 装置 用于 | ||
本发明实施例提供了一种语音处理方法、装置和用于语音处理的装置。所述方法包括:利用多通道语音信号上一帧的滤波处理参数计算当前帧的输出预测值和增益向量,所述滤波处理参数包括滤波器系数、协方差矩阵、遗忘因子;根据当前帧的输出预测值、当前帧的增益向量、以及上一帧的遗忘因子,更新当前帧的滤波器系数和协方差矩阵,并根据更新的滤波器系数和协方差矩阵对当前帧进行滤波处理,得到当前帧的输出值;对下一帧进行处理。本发明实施例可以在声源位置发生变动的时候,提高消除混响的效果,进而提高终端设备语音识别的准确率。
技术领域
本发明涉及智能控制技术领域,尤其涉及一种语音处理方法、装置和用于语音处理的装置。
背景技术
随着语音识别技术的日益成熟,市场中出现越来越多的智能设备,例如智能音箱、智能电视等,这些智能设备基于语音识别技术,为用户提供更便捷的交互方式。
在远场情况下,室内麦克风拾取的语音信号,由于不可避免地受到来自于室内墙壁、顶部天花板和其它障碍物反射信号的干扰,会发生线性奇变,这种奇变通常称为混响,将直接影响语音识别的效果。
目前可以利用CDR(coherent-to-difuse ration,相干扩散功率比)、MCLP(multi-channel linear prediction,多通道线性预测)等语音去混响方法对室内语音起到消除混响的作用,提升在远场情况下的语音识别率,但是在声源位置发生变动的时候,上述方法消除混响的效果会大打折扣,甚至降低语音识别的准确率。
发明内容
本发明实施例提供一种语音处理方法、装置和用于语音处理的装置,可以在声源位置发生变动的时候,提高消除混响的效果,进而提高终端设备语音识别的准确率。
为了解决上述问题,本发明实施例公开了一种语音处理方法,所述方法包括:
利用多通道语音信号上一帧的滤波处理参数计算当前帧的输出预测值和增益向量,所述滤波处理参数包括滤波器系数、协方差矩阵、遗忘因子;
根据当前帧的输出预测值、当前帧的增益向量、以及上一帧的遗忘因子,更新当前帧的滤波器系数和协方差矩阵,并根据更新的滤波器系数和协方差矩阵对当前帧进行滤波处理,得到当前帧的输出值;
对下一帧进行处理。
可选地,所述对下一帧进行处理,包括:
在当前帧的输出值相对于上一帧的输出值满足预设变化条件的情况下,对所述遗忘因子进行更新,并利用更新的遗忘因子对下一帧进行处理。
可选地,所述方法还包括:
计算当前帧的滤波器系数变化值与上一帧的滤波器系数变化值的比值;
若所述比值超过预设阈值,则确定当前帧的输出值相对于上一帧的输出值满足预设变化条件。
可选地,所述利用多通道语音信号上一帧的滤波处理参数计算当前帧的输出预测值和增益向量,包括:
利用多通道语音信号上一帧的滤波器系数计算当前帧的输出预测值;
根据当前帧的语音方差、上一帧的遗忘因子、以及上一帧的协方差矩阵,计算当前帧的增益向量。
可选地,所述方法还包括:
将多通道语音信号以帧为单位进行短时傅里叶变换,得到多通道语音信号的每一帧频域信号;
将所述多通道语音信号的每一帧频域信号求和后进行求模,得到每一帧的语音幅度谱;
将所述每一帧的语音幅度谱依次进行语音方差估计,得到每一帧的语音方差。
可选地,所述将所述每一帧的语音幅度谱依次进行语音方差估计,得到每一帧的语音方差,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110431564.0/2.html,转载请声明来源钻瓜专利网。