[发明专利]一种音频信号人声增强的方法及装置有效
申请号: | 202010259819.5 | 申请日: | 2020-04-03 |
公开(公告)号: | CN111508519B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 邓峰;姜涛;李岩 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L21/0264 | 分类号: | G10L21/0264;G10L21/0316;G10L21/0324 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 信号 人声 增强 方法 装置 | ||
本公开关于一种音频信号人声增强的方法及装置,涉及多媒体技术领域,能够以较低的数据处理复杂度,解决实时音频文件传输中的人声对话增强的技术问题。该方法包括:对原始音频信号进行加窗分帧处理,得到多个音频信号片段;根据多个音频信号片段得到每个音频信号片段的基频信息和多个特征参数;其中,每个音频信号片段的多个特征参数包括每个音频信号片段在幅度谱上被划分为多个巴克Bark子带的特征参数;根据神经网络算法依次对每个音频信号片段片段进行增强处理,分别得到每个音频信号片段的人声增强信号;将每个音频信号片段的人声增强信号依次叠接相加,得到目标增强信号。
技术领域
本公开涉及多媒体技术领域,尤其涉及一种音频信号人声增强的方法及装置。
背景技术
随着多媒体技术的发展,视频直播和视频共享成为一种时尚而普遍的娱乐方式。但是,通常视频中除了人声,会存在比较明显的噪声,例如风声、铃声或车量鸣笛声等,尤其当用户在户外录制视频或者做视频直播时,外界环境通常比较嘈杂,这些噪声使得用户很难听清楚视频中的人声对话,严重影响用户的听觉效果。
目前人声对话增强的技术方案,采用循环神经网络(Recurrent Neural Network,RNN)或者卷积神经网络(Convolutional Neural Network,CNN)进行深度学习,虽然能获得比较好的人声增强效果,但其网络神经元单元数很多,神经网络的算法复杂度很高,只能离线运行,不能满足直播等实时的音频信号人声增强的要求。
发明内容
本公开提供一种音频信号人声增强的方法及装置,以至少解决现有技术算法复杂度高,不能满足实时音频的人声增强问题,从而以较低的数据处理复杂度,有效地提升音频文件中人声对话增强的效果。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种音频信号增强的方法,该方法包括:对原始音频信号进行加窗分帧处理,得到多个音频信号片段;根据所述多个音频信号片段得到每个音频信号片段的基频信息和多个特征参数;其中,所述每个音频信号片段的多个特征参数包括所述每个音频信号片段在幅度谱上被划分为多个巴克Bark子带的特征参数;根据神经网络算法依次对所述每个音频信号片段片段进行增强处理,分别得到所述每个音频信号片段的人声增强信号;将所述每个音频信号片段的人声增强信号依次叠接相加,得到目标增强信号。
上述技术方案中,通过将音频信号分割为较小的处理单位,并进行Bark子带划分后提取特征bark子带的特征参数作为神经网络深度学习的参数,使得音频处理的延时减小,减小运算的复杂度;同时,Bark子带划分的原理就是依据人声特征的临界频带划分方法,使得该方案能够根据人声特征进行音频信号的增强,改善现有技术中人声对话的效果。
在一种可能的实施方式中,多个特征参数包括所述多个Bark子带的平均能量、所述平均能量的一阶差分和所述平均能量的二阶差分中的至少一种参数。上述可能的实现方式中,通过将音频信号片段对应的幅度谱划分为多个Bark子带,提取每个Bark子带的特征参数作为神经网络的训练参数,相比直接对音频信号片段的幅度谱进行参数训练,可以有效降低运算的复杂度,从而提高音频处理的实时性。
在一种可能的实施方式中,根据神经网络算法依次对所述每个音频信号片段片段进行增强处理,分别得到所述每个音频信号片段的人声增强信号,包括:根据密集连接的多层门控循环单元GRU神经网络算法依次对所述每个音频信号片段的基频信息和多个特征参数进行预测,得到所述每个音频信号片段的人声增强因子;根据所述人声增强因子得到所述每个音频信号片段的人声增强后的音频信号。上述可能的实现方式中,通过密集连接结构的多层GRU神经网络进行参数训练,其网络结构简单,神经元节点数较少,从而音频增强处理的复杂度较低,提高音频处理的实时性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010259819.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:硼、氮掺杂钴钼硫氧化合物/碳复合材料的方法
- 下一篇:标签标识方法及装置