[发明专利]一种语音处理方法、装置和用于语音处理的装置在审
申请号: | 202110454916.4 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113345461A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 崔国辉 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0224;G10L25/03;G10L25/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 处理 方法 装置 用于 | ||
1.一种语音处理方法,其特征在于,所述方法包括:
接收待处理语音,所述待处理语音中包含噪音和目标用户声音,目标用户的个数大于或等于1;
获取所述目标用户的注册语音特征;
将所述待处理语音和所述目标用户的注册语音特征输入说话人提取模型,所述说话人提取模型根据所述目标用户的注册语音特征,提取所述待处理语音中所述目标用户的目标语音,并输出所述目标语音。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
收集注册用户的用户语音样本;
获取所述注册用户的注册语音特征和纯净语音;
将所述用户语音样本、注册语音特征、以及纯净语音输入初始的说话人提取模型,所述说话人提取模型根据所述注册用户的注册语音特征,提取所述用户语音样本中注册用户的目标语音;
根据提取的注册用户的目标语音与注册用户的纯净语音之间的特征差异迭代优化所述说话人提取模型的模型参数,达到预设收敛条件得到训练完成的说话人提取模型。
3.根据权利要求2所述的方法,其特征在于,所述说话人提取模型包括第一处理网络和第二处理网络,所述说话人提取模型根据所述注册用户的注册语音特征,提取所述用户语音样本中注册用户的目标语音,包括:
将所述用户语音样本进行短时傅里叶变换,得到样本语音幅度谱;
将所述纯净语音进行短时傅里叶变换,得到纯净语音幅度谱;
通过所述第一处理网络提取所述样本语音幅度谱的含噪语音特征;
将所述注册用户的注册语音特征与所述含噪语音特征进行矩阵的元素相乘,得到调制语音特征;
通过所述第二处理网络对所述调制语音特征进行特征提取处理,得到幅度谱掩码;
将所述样本语音幅度谱与所述幅度谱掩码进行矩阵的元素相乘,得到降噪语音幅度谱;
所述根据提取的注册用户的目标语音与注册用户的纯净语音之间的特征差异迭代优化所述说话人提取模型的模型参数,包括:
根据预设损失函数,计算所述降噪语音幅度谱与所述纯净语音幅度谱之间的特征差异;
根据所述特征差异迭代优化所述说话人提取模型的模型参数。
4.根据权利要求1所述的方法,其特征在于,所述获取所述目标用户的注册语音特征,包括:
获取所述目标用户的注册语音;
将所述目标用户的注册语音输入特征提取模型,对所述目标用户的注册语音进行特征提取,得到所述目标用户的注册语音特征。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
收集注册用户的注册语音样本;
将所述注册语音样本输入初始的特征提取模型,提取得到所述注册语音样本的特征向量;
对所述注册用户的纯净语音进行特征提取,得到纯净语音的特征向量;
根据所述注册语音样本的特征向量与所述纯净语音的特征向量之间的特征差异迭代优化所述特征提取模型的模型参数,达到预设收敛条件得到训练完成的特征提取模型。
6.根据权利要求5所述的方法,其特征在于,所述将所述注册语音样本输入初始的特征提取模型,提取得到所述注册语音样本的特征向量,包括:
对所述注册语音样本进行话音激活检测,过滤所述注册语音样本中的非语音段,得到过滤后语音;
将所述过滤后语音按预设帧长进行切分,得到所述过滤后语音对应的语音帧序列;
对所述语音帧序列中的各语音帧进行短时傅里叶变换,得到每个语音帧对应的语音帧幅度谱;
将所述语音帧幅度谱输入特征提取模型的特征提取网络,输出每个语音帧幅度谱的特征向量;
将所述语音帧序列中各语音帧对应语音帧幅度谱的特征向量进行求平均计算,得到所述注册语音样本的特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110454916.4/1.html,转载请声明来源钻瓜专利网。