[发明专利]一种语音处理方法、装置和用于语音处理的装置在审
申请号: | 202110454916.4 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113345461A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 崔国辉 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0224;G10L25/03;G10L25/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 处理 方法 装置 用于 | ||
本发明实施例提供了一种语音处理方法、装置和用于语音处理的装置,应用于终端设备。其中的方法包括:接收待处理语音,所述待处理语音中包含噪音和目标用户声音,目标用户的个数大于或等于1;获取所述目标用户的注册语音特征;将所述待处理语音和所述目标用户的注册语音特征输入说话人提取模型,所述说话人提取模型根据所述目标用户的注册语音特征,提取所述待处理语音中所述目标用户的目标语音,并输出所述目标语音。本发明实施例可以提高通话语音的质量,以及保护用户隐私。
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音处理方法、装置和用于语音处理的装置。
背景技术
随着通信技术的发展,语音通信已经称为目前主要的通信方式,但是语音通信过程中,来自于周围环境中的噪音、干扰一直是影响用户通信体验的重要因素。
例如,用户在使用语音通信设备进行语音通信的过程中,周围环境中的噪音、干扰会一同传入用户的语音通信设备,导致通信对方无法听清该用户语音,或者,导致通信对方听到其他语音(如周围说话人的声音)而这些语音是该用户不希望通信对方听到的,这样不仅影响语音通信效果而且可能会暴露该用户的个人隐私。
发明内容
本发明实施例提供一种语音处理方法、装置和用于语音处理的装置,可以提高通话语音的质量,以及保护用户隐私。
为了解决上述问题,本发明实施例公开了一种语音处理方法,所述方法包括:
接收待处理语音,所述待处理语音中包含噪音和目标用户声音,目标用户的个数大于或等于1;
获取所述目标用户的注册语音特征;
将所述待处理语音和所述目标用户的注册语音特征输入说话人提取模型,所述说话人提取模型根据所述目标用户的注册语音特征,提取所述待处理语音中所述目标用户的目标语音,并输出所述目标语音。
可选地,所述方法还包括:
收集注册用户的用户语音样本;
获取所述注册用户的注册语音特征和纯净语音;
将所述用户语音样本、注册语音特征、以及纯净语音输入初始的说话人提取模型,所述说话人提取模型根据所述注册用户的注册语音特征,提取所述用户语音样本中注册用户的目标语音;
根据提取的注册用户的目标语音与注册用户的纯净语音之间的特征差异迭代优化所述说话人提取模型的模型参数,达到预设收敛条件得到训练完成的说话人提取模型。
可选地,所述说话人提取模型包括第一处理网络和第二处理网络,所述说话人提取模型根据所述注册用户的注册语音特征,提取所述用户语音样本中注册用户的目标语音,包括:
将所述用户语音样本进行短时傅里叶变换,得到样本语音幅度谱;
将所述纯净语音进行短时傅里叶变换,得到纯净语音幅度谱;
通过所述第一处理网络提取所述样本语音幅度谱的含噪语音特征;
将所述注册用户的注册语音特征与所述含噪语音特征进行矩阵的元素相乘,得到调制语音特征;
通过所述第二处理网络对所述调制语音特征进行特征提取处理,得到幅度谱掩码;
将所述样本语音幅度谱与所述幅度谱掩码进行矩阵的元素相乘,得到降噪语音幅度谱;
所述根据提取的注册用户的目标语音与注册用户的纯净语音之间的特征差异迭代优化所述说话人提取模型的模型参数,包括:
根据预设损失函数,计算所述降噪语音幅度谱与所述纯净语音幅度谱之间的特征差异;
根据所述特征差异迭代优化所述说话人提取模型的模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110454916.4/2.html,转载请声明来源钻瓜专利网。