[发明专利]语音数据处理方法、装置、智能设备及计算机存储介质在审
申请号: | 202110232082.2 | 申请日: | 2021-03-02 |
公开(公告)号: | CN114999499A | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 王加芳;陈浩楠;庄博宇;李博韧;古鉴 | 申请(专利权)人: | 阿里巴巴新加坡控股有限公司 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/20;G10L17/22;G06V40/16;G06V10/80;G06V10/75 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;兰淑铎 |
地址: | 新加坡珊顿道*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 数据处理 方法 装置 智能 设备 计算机 存储 介质 | ||
本申请实施例提供了一种语音数据处理方法、装置、智能设备及计算机存储介质,其中,语音数据处理方法包括:获取包含有多个人脸的人脸图像数据和语音频谱数据;对所述人脸图像数据和所述语音频谱数据进行处理,以确定出目标人脸;获取所述目标人脸对应的人脸特征及声纹特征,并基于所述人脸特征、所述声纹特征及所述语音频谱数据,确定用于指示所述语音频谱数据中的噪音数据的频谱掩码;根据所述频谱掩码,对所述语音频谱数据进行语音增强处理。通过本申请实施例提供的方案,可以对目标用户的语音进行增强,提升用户体验。
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种语音数据处理方法、装置、智能设备及计算机存储介质。
背景技术
随着AI(Artificial Intelligence,人工智能)技术的发展,越来越多基于AI语音交互的智能语音设备正广泛应用于人们的工作和生活中。
现有的智能语音设备通过麦克风阵列拾取用户的语音,并对拾取的语音进行识别,基于识别结果与用户进行交互。但在某些嘈杂的环境中,例如地铁站、展示厅、家庭播放电视等场景下,用户的语音易受到较大干扰,智能语音设备会对拾取到的设备周围所有的语音进行处理和识别,造成语音识别准确度下降。
由此,使得在这些场景下使用智能语音设备时,用户往往无法与智能语音设备进行正常交互,导致用户体验较差。
发明内容
有鉴于此,本申请实施例提供一种语音数据处理方案,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种语音数据处理方法,包括:获取包含有多个人脸的人脸图像数据和语音频谱数据;对所述人脸图像数据和所述语音频谱数据进行处理,以确定出目标人脸;获取所述目标人脸对应的人脸特征及声纹特征,并基于所述人脸特征、所述声纹特征及所述语音频谱数据,确定用于指示所述语音频谱数据中的噪音数据的频谱掩码;根据所述频谱掩码,对所述语音频谱数据进行语音增强处理。
根据本申请实施例的第二方面,提供了一种语音数据处理装置,包括:数据获取模块,用于获取包含有多个人脸的人脸图像数据和语音频谱数据;处理确定模块,用于对所述人脸图像数据和所述语音频谱数据进行处理,以确定出目标人脸;频谱掩码获取模块,用于获取所述目标人脸对应的人脸特征及声纹特征,并基于所述人脸特征、所述声纹特征及所述语音频谱数据,确定用于指示所述语音频谱数据中的噪音数据的频谱掩码;语音增强模块,用于根据所述频谱掩码,对所述语音频谱数据进行语音增强处理。
根据本申请实施例的第三方面,提供了一种电智能设备,包括:语音采集装置、图像采集装置、处理器;其中,所述语音采集装置,用于采集语音数据;图像采集装置,用于采集人脸图像;处理器,用于接收所述图像采集装置采集的包含多个人脸的人脸图像数据和所述语音采集装置采集的语音数据并转换为语音频谱数据;并且,基于所述人脸图像数据和所述语音频谱数据,执行如第一方面所述的语音数据处理方法对应的操作。
根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的语音数据处理方法。
根据本申请实施例提供的语音数据处理方案,在人多嘈杂环境下使用智能语音设备时,将语音与图像相结合,首先基于人脸图像数据和语音频谱数据融合后的数据确定出向智能语音设备发出语音指令的目标用户,即目标人脸对应的用户;进而,基于目标人脸对应的人脸特征、声纹特征和语音频谱数据,获得频谱掩码;再通过频谱掩码进行语音增强。因即使在嘈杂环境下,也不会对人脸图像数据产生影响,仍可较为准确地确定出目标用户,在此基础上,确定出可用于指示非该目标用户的语音的噪音数据的频谱掩码,通过该频谱掩码尽可能地将非该目标用户的语音过滤掉,从而达到对目标用户的语音进行增强的效果。由此,使得即使在嘈杂环境下使用智能语音设备,用户也能与智能语音设备进行正常交互,提升用户体验。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴新加坡控股有限公司,未经阿里巴巴新加坡控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110232082.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:并环类己酮糖激酶抑制剂及其用途
- 下一篇:导光板、背光模组和终端