[发明专利]一种音频降噪方法、装置、设备及介质在审
申请号: | 202110751408.2 | 申请日: | 2021-07-02 |
公开(公告)号: | CN113345435A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 陈孝良;冯大航;奚少亨;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G10L21/0208;G10L21/0272;G10L25/51 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 方法 装置 设备 介质 | ||
本发明关于一种音频降噪方法、装置、设备及介质,应用于电梯、智能汽车等语音控制场景,用以对每个对象的音频进行降噪处理,优化语音识别过程。方法包括:获取目标对象的语音音频;获取目标对象的语音音频;基于频域与巴克域变换关系,确定目标语音信号在所述多个预设频率的幅值对应的目标巴克带,所述目标语音信号为所述语音音频的任一帧语音信号;利用确定出的目标巴克带组成的矩阵,确定所述目标语音信号的音频特征;将所述目标语音信号的音频特征输入降噪网络模型后,得到目标语音信号对应的音噪比值矩阵;基于所述音噪比值矩阵,以及所述目标语音信号在所述多个预设频率的幅值,确定去噪后的所述目标语音信号。
本申请要求在2020年7月3日提交中华人民共和国知识产权局、申请号为202010635457.5、发明名称为“一种音频信号的处理方法、装置、设备及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及语音处理领域,尤其涉及一种音频降噪方法、装置、设备及介质。
背景技术
在语音控制领域中,通常同一时间由一个用户发出语音控制命令,根据采集该用户的音频确定具体的命令意图。但在共享语音控制权限的场景中(例如,电梯场景),多个用户均享有语音控制权限,若出现多个用户同一时间发出语音控制命令,被采集的音频中包含了多个用户的语音控制命令。从被采集的音频中分离出每个用户的语音控制命令音频的质量较差,造成无法确定每个用户的具体命令意图,还需要确认多个用户逐个发出语音控制命令,使得处理效率低下。
发明内容
本发明提供一种音频降噪方法、装置、设备及介质,用以对对象的音频进行降噪处理,可以优化语音识别过程。
本发明的技术方案如下:
根据本发明实施例的第一方面,提供一种音频降噪方法,包括:
获取目标对象的语音音频;
基于频域与巴克域变换关系,确定目标语音信号在所述多个预设频率的幅值对应的目标巴克带,所述目标语音信号为所述语音音频的任一帧语音信号;
利用确定出的目标巴克带组成的矩阵,确定所述目标语音信号的音频特征;
将所述目标语音信号的音频特征输入降噪网络模型后,得到目标语音信号对应的音噪比值矩阵;
基于所述音噪比值矩阵,以及所述目标语音信号在所述多个预设频率的幅值,确定去噪后的所述目标语音信号。
一种可能的实施方式中,本发明实施例提供的音频降噪方法中,所述基于所述音噪比值矩阵,以及所述目标语音信号在所述多个预设频率的幅值,确定去噪后的目标语音信号,包括:
基于所述音噪比值矩阵,以及所述目标语音信号在所述多个预设频率的幅值,确定去噪后的目标语音信号在所述多个预设频率的幅值;
基于预设转换关系,将所述去噪后的所述目标语音信号在所述多个预设频率的幅值,转换为去噪后的所述目标语音信号。
一种可能的实施方式中,本发明实施例提供的音频降噪方法中,所述基于所述音噪比值矩阵,以及所述目标语音信号在所述多个预设频率的幅值,确定去噪后的目标语音信号在所述多个预设频率的幅值,包括:
利用所述频域与巴克域变换关系,将所述音噪比值矩阵变换到频域后的矩阵确定为所述目标语音信号的降噪矩阵;
将所述目标语音信号在所述多个预设频率的幅值组成的第一矩阵,与所述目标语音信号的降噪矩阵的乘积,确定为第二矩阵,所述第二矩阵由去噪后的目标语音信号在所述多个预设频率的幅值组成的。
一种可能的实施方式中,本发明实施例提供的音频降噪方法中,所述获取所述目标对象的语音音频,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110751408.2/2.html,转载请声明来源钻瓜专利网。