[发明专利]一种音频信号人声增强的方法及装置有效
申请号: | 202010259819.5 | 申请日: | 2020-04-03 |
公开(公告)号: | CN111508519B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 邓峰;姜涛;李岩 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L21/0264 | 分类号: | G10L21/0264;G10L21/0316;G10L21/0324 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 信号 人声 增强 方法 装置 | ||
1.一种音频信号人声增强的方法,其特征在于,包括:
对原始音频信号进行加窗分帧处理,得到多个音频信号片段;
根据所述多个音频信号片段得到每个音频信号片段的基频信息和多个特征参数;其中,所述每个音频信号片段的多个特征参数包括根据临界频带定义对所述每个音频信号片段在幅度谱上被划分为多个Bark子带的特征参数,其中,根据临界频带定义进行Bark子带划分是利用人耳听觉的特性,通过对音频信号的幅度谱进行Bark子带划分,把物理频点映射到心理声学的边界频率对应的频点;
根据密集连接的多层门控循环单元GRU神经网络算法依次对所述每个音频信号片段的基频信息和多个特征参数进行预测,得到所述每个音频信号片段的人声增强因子,其中,所述密集连接是指当前层的输入是由前面所有层的输出连接而成的网络结构;
根据所述人声增强因子得到所述每个音频信号片段的人声增强后的音频信号;
将所述每个音频信号片段的人声增强信号依次叠接相加,得到目标增强信号。
2.根据权利要求1所述的方法,其特征在于,所述多个特征参数包括所述多个Bark子带的平均能量、所述平均能量的一阶差分和所述平均能量的二阶差分中的至少一种参数。
3.根据权利要求1或2所述的方法,其特征在于,所述根据密集连接的多层门控循环单元GRU神经网络算法依次对所述每个音频信号片段的基频信息和多个特征参数进行预测,得到所述每个音频信号片段的人声增强因子之前,所述方法还包括:
根据多个基频信息和多个子带的特征参数得到原始函数训练集和目标函数训练集;
对所述原始函数训练集和所述目标函数训练集进行参数训练,得到密集连接的多层GRU神经网络模型;
其中,所述原始函数训练集满足:X(b)=S(b)+W(b),所述目标函数训练集满足:X'(b)=g(b)*S(b)+W(b),其中,b为子带索引号,X(b)表示原始含噪幅度谱,X'(b)表示人声增强后的含噪幅度谱,S(b)表示不含噪的人声幅度谱,W(b)表示噪声幅度谱,g(b)表示目标增强因子。
4.一种音频信号增强的装置,其特征在于,包括:
加窗分帧模块,被配置为对原始音频信号进行加窗分帧处理,得到多个音频信号片段;
特征提取模块,被配置为根据所述多个音频信号片段得到每个音频信号片段的基频信息和多个特征参数;其中,所述每个音频信号片段的多个特征参数包括根据临界频带定义对所述每个音频信号片段在幅度谱上被划分为多个Bark子带的特征参数,其中,根据临界频带定义进行Bark子带划分是利用人耳听觉的特性,通过对音频信号的幅度谱进行Bark子带划分,把物理频点映射到心理声学的边界频率对应的频点;
人声增强模块,被配置为根据密集连接的多层门控循环单元GRU神经网络算法依次对所述每个音频信号的基频信息和多个特征参数进行预测,得到所述每个音频信号片段的人声增强因子,以及,根据所述人声增强因子得到所述每个音频信号片段的人声增强后的音频信号;其中,所述密集连接是指当前层的输入是由前面所有层的输出连接而成的网络结构;
叠加处理模块,被配置为将所述每个音频信号片段的人声增强信号依次叠接相加,得到目标增强信号。
5.根据权利要求4所述的装置,其特征在于,所述多个特征参数包括所述多个Bark子带的平均能量、所述平均能量的一阶差分和所述平均能量的二阶差分中的至少一种参数。
6.根据权利要求4或5所述的装置,其特征在于,所述装置还包括参数训练模块,所述参数训练模块具体被配置为:
根据多个基频信息和多个子带的特征参数得到原始函数训练集和目标函数训练集;
对所述原始函数训练集和所述目标函数训练集进行参数训练,得到密集连接的多层GRU神经网络模型;
其中,所述原始函数训练集满足:X(b)=S(b)+W(b),目标函数训练集满足:X'(b)=g(b)*S(b)+W(b),其中,b为子带索引号,X(b)表示原始含噪幅度谱,X'(b)表示人声增强后的含噪幅度谱,S(b)表示不含噪的人声幅度谱,W(b)表示噪声幅度谱,g(b)表示目标增强因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010259819.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:硼、氮掺杂钴钼硫氧化合物/碳复合材料的方法
- 下一篇:标签标识方法及装置