[发明专利]一种语音信号处理的方法及其相关设备在审
申请号: | 202011037133.8 | 申请日: | 2020-09-27 |
公开(公告)号: | CN114283826A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 魏善义;章烨辉;赵文斌 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L15/20;G10L17/20;G10L17/22;G10L25/30 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 李杭 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 信号 处理 方法 及其 相关 设备 | ||
本申请公开了一种语音信号处理的方法及其相关设备,可使得声源的方位能够准确地指示声源的实际位置,从而提高语音帧的滤波质量。本申请中的方法包括:获取第一语音帧;若确定第一语音帧之前包括触发唤醒的语音帧,则根据第一语音帧之前的N个语音帧,确定第一语音的第一声源的方位,第一语音包括第一语音帧和N个语音帧,N个语音帧包括触发唤醒的语音帧,N为大于或等于1的整数;根据第一声源的方位对第一语音帧进行滤波。
技术领域
本申请涉及智能语音交互领域,尤其涉及一种语音信号处理的方法及其相关设备。
背景技术
语音增强的本质是语音降噪(也可称为语音滤波)。终端设备的麦克风阵列所采集的语音通常带有一定程度的噪声,通过语音增强可抑制语音中所携带的噪声,从而提高语音的可懂度和话音质量,有助于提高语音唤醒的唤醒率和语音识别的识别率。
在语音增强的过程中,可对语音中的每一个语音帧均进行滤波处理,从而得到增强后的语音。具体地,对于某一个语音帧,可先基于该语音帧生成多个波束,并基于该语音帧的信息确定生成语音的声源的方位。接着,在多个波束中,选择与声源的方位对应的波束进行滤波,可得到滤波后的语音帧。然而,前述确定声源的方位的过程中,所考虑的信息较为单一,导致得到的声源的方位无法准确地指示声源的实际位置,故基于此种方式得到的声源的方位对语音帧进行滤波,滤波后的语音帧仍然会残留较多的噪声,即语音帧的滤波质量不佳。
因此,如何令声源的方位能够准确地指示声源的实际位置,从而提高语音帧的滤波质量,成为了亟待解决的问题。
发明内容
本申请实施例提供了一种语音信号处理的方法及其相关设备,可使得声源的方位能够准确地指示声源的实际位置,从而提高语音帧的滤波质量。
本申请实施例的第一方面提供了一种语音信号处理的方法,该方法包括:
当用户需与终端设备进行语音交互(例如,语音唤醒和语音识别等等)时,可向终端设备输入第一语音。在基于第一语音进行语音唤醒和语音识别之前,终端设备通常会对第一语音进行语音增强。具体地,终端设备可逐帧获取第一语音,并对第一语音中的每个语音帧进行语音增强,语音增强的处理过程如下:
在获取第一语音帧之前,终端设备已获取第一语音帧之前的所有语音帧,并对每个语音帧进行了唤醒检测。基于语音帧的唤醒检测结果,可判断第一语音帧之前是否包括触发唤醒的语音帧(即最终唤醒终端设备),即判断在第一语音帧之前的第K个语音帧是否为触发唤醒的语音帧,K为大于或等于1的整数。
在获取到第一语音帧后,终端设备若确定第一语音帧之前包括触发唤醒的语音帧(即确定第一语音帧之前的第K个语音帧为触发唤醒的语音帧),可确定当前处于被唤醒的状态,则根据第一语音帧之前的N个语音帧,确定第一语音的第一声源的方位。其中,第一语音包括第一语音帧和第一语音帧之前的N个语音帧。该N个语音帧包含触发唤醒的语音帧,一般地,触发唤醒的语音帧通常为该N个语音帧中的最后一个语音帧。N为大于或等于1的整数。
在得到第一声源的方位后,终端设备根据第一声源的方位对第一语音帧进行滤波。
从上述方法可以看出:终端设备在确定第一语音帧之前包括触发唤醒的语音帧后,则利用第一语音帧之前的N个语音帧确定第一声源的方位。由于该N个语音帧中包括触发唤醒的语音帧,故在确定第一声源的方位时,考虑了与唤醒终端设备相关的多个语音帧信息,使得该方位能够更准确地指示第一声源的实际位置。因此,基于该方位对第一语音帧进行滤波,可提高语音帧的滤波质量。
在一种可能的实现方式中,终端设备根据第一语音帧之前的N个语音帧,确定第一语音的第一声源的方位具体包括:终端设备在确定第一语音帧之前包括触发唤醒的语音帧后,可确定第一语音帧之前的N个语音帧,该N个语音帧包含触发唤醒的语音帧。然后,终端设备获取该N个语音帧所对应的N个第一声源的预估方位,其中,每个语音帧分别对应一个第一声源的预估方位。最后,终端设备在N个第一声源的预估方位中取众数,得到第一语音的第一声源的方位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011037133.8/2.html,转载请声明来源钻瓜专利网。