[发明专利]语音数据处理方法、装置、智能设备及计算机存储介质在审
申请号: | 202110232082.2 | 申请日: | 2021-03-02 |
公开(公告)号: | CN114999499A | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 王加芳;陈浩楠;庄博宇;李博韧;古鉴 | 申请(专利权)人: | 阿里巴巴新加坡控股有限公司 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/20;G10L17/22;G06V40/16;G06V10/80;G06V10/75 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;兰淑铎 |
地址: | 新加坡珊顿道*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 数据处理 方法 装置 智能 设备 计算机 存储 介质 | ||
1.一种语音数据处理方法,包括:
获取包含有多个人脸的人脸图像数据和语音频谱数据;
对所述人脸图像数据和所述语音频谱数据进行处理,以确定出目标人脸;
获取所述目标人脸对应的人脸特征及声纹特征,并基于所述人脸特征、所述声纹特征及所述语音频谱数据,确定用于指示所述语音频谱数据中的噪音数据的频谱掩码;
根据所述频谱掩码,对所述语音频谱数据进行语音增强处理。
2.根据权利要求1所述的方法,其中,所述对所述人脸图像数据和所述语音频谱数据进行处理,以确定出目标人脸,包括:
对预设时间段内的多个所述人脸图像数据进行人脸检测,根据人脸检测结果从多个所述人脸图像数据中,截取所述多个人脸中各个人脸对应的人脸图像部分;
按照图像采集时序对截取的各个人脸的人脸图像部分进行排序,生成多个人脸图像序列;
分别对所述多个人脸图像序列与所述语音频谱数据进行匹配,根据匹配结果从所述多个人脸中确定出目标人脸。
3.根据权利要求2所述的方法,其中,所述分别对所述多个人脸图像序列与所述语音频谱数据进行匹配,根据匹配结果从所述多个人脸中确定出目标人脸,包括:
根据各个人脸图像序列对应的时间信息与所述语音频谱数据对应的时间信息,匹配出人脸持续出现时间与所述语音频谱数据的持续时间一致的人脸图像序列,根据匹配结果从所述多个人脸中确定出目标人脸。
4.根据权利要求2所述的方法,其中,所述分别对所述多个人脸图像序列与所述语音频谱数据进行匹配,根据匹配结果从所述多个人脸中确定出目标人脸,包括:
对所述多个人脸图像序列中包含的多个人脸的人脸图像部分进行特征提取,获取对应的多个人脸特征;并且,对所述语音频谱数据进行特征提取,获取对应的声纹特征;
根据预存的人脸特征与声纹特征的对应关系,将所述多个人脸特征中,与所述声纹特征存在对应关系的人脸特征确定为目标人脸特征;
将所述目标人脸特征对应的人脸确定为目标人脸。
5.根据权利要求4所述的方法,其中,所述预存的人脸特征与声纹特征的对应关系为预存的人脸特征的人脸标识与声纹特征的声纹标识的对应关系;
所述根据预存的人脸特征与声纹特征的对应关系,将所述多个人脸特征中,与所述声纹特征存在对应关系的人脸特征确定为目标人脸特征,包括:
从所述多个人脸特征中,确定存在有对应的人脸标识的人脸特征;并且,确定所述声纹特征对应的声纹标识;
根据所述对应关系,将与所述声纹标识具有对应关系的人脸标识对应的人脸特征,确定为目标人脸特征。
6.根据权利要求1所述的方法,其中,所述基于所述人脸特征、所述声纹特征及所述语音频谱数据,确定用于指示所述语音频谱数据中的噪音数据的频谱掩码,包括:
对所述人脸特征和所述声纹特征进行特征融合,获得声纹人脸融合特征;并且,对所述语音频谱数据进行特征提取,获得频谱特征;
以所述声纹人脸融合特征和所述频谱特征为输入,利用预先训练完成的神经网络模型获得频谱掩码概率图,其中,所述频谱掩码概率图中的每个概率值用于指示所述语音频谱数据中对应位置的数据为噪音数据的概率。
7.根据权利要求6所述的方法,其中,所述根据所述频谱掩码,对所述语音频谱数据进行语音增强处理,包括:
将所述频谱掩码与所述语音频谱数据进行矩阵乘法运算,根据运算结果获得增强语音频谱数据;
对所述增强语音频谱数据进行逆傅里叶变换,获得对应的增强语音数据。
8.根据权利要求1所述的方法,其中,所述获取所述目标人脸对应的人脸特征及声纹特征,包括:
对所述目标人脸进行人脸识别,根据人脸识别结果获得所述目标人脸的人脸标识;
确定与所述人脸标识相对应的声纹标识,获取所述声纹标识对应的声纹特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴新加坡控股有限公司,未经阿里巴巴新加坡控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110232082.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:并环类己酮糖激酶抑制剂及其用途
- 下一篇:导光板、背光模组和终端