[发明专利]一种音频信号处理的方法及装置有效
| 申请号: | 201911072753.2 | 申请日: | 2019-11-05 |
| 公开(公告)号: | CN110782908B | 公开(公告)日: | 2020-06-16 |
| 发明(设计)人: | 盘子圣;丁宁 | 申请(专利权)人: | 广州欢聊网络科技有限公司 |
| 主分类号: | G10L19/02 | 分类号: | G10L19/02;G10L25/03;G10L25/30;G10L25/45;G10L25/51;G10L25/87 |
| 代理公司: | 广州佳睿知识产权代理事务所(普通合伙) 44610 | 代理人: | 李健富 |
| 地址: | 510000 广东省广州市天*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 音频 信号 处理 方法 装置 | ||
本申请涉及一种音频信号处理的方法及装置,其中所述方法包括:获取原唱音频信号以及模仿音频信号;分别对所述原唱音频信号以及所述模仿音频信号进行特征提取,获取所述原唱音频信号对应的第一特征帧序列,以及,所述模仿音频信号对应的第二特征帧序列;将所述第二特征帧序列与所述第一特征帧序列进行帧对齐,生成帧对齐序列;检测所述第一特征帧序列对应的第一音节起始点序列,以及,所述第二特征帧序列对应的第二音节起始点序列;基于所述第一音节起始点序列以及所述第二音节起始点序列,对所述帧对齐序列进行调整;采用调整后的帧对齐序列对所述模仿音频信号进行音频波形重建,并根据重建得到的音频波形数据生成用于输出的目标音频。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种音频信号处理的方法及装置。
背景技术
说唱(Rap)是目前流行的一种音乐形式,人们在听别人演唱说唱音乐的同时,越来越希望能够制作自己演唱的说唱音乐。但是,演唱说唱音乐往往需要演唱者具有一定的乐理知识以及唱歌技巧,演唱门槛较高。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种音频信号处理的方法及装置。
第一方面,本申请提供了一种语音信号处理的方法,所述方法包括:
获取原唱音频信号以及模仿音频信号;
分别对所述原唱音频信号以及所述模仿音频信号进行特征提取,获取所述原唱音频信号对应的第一特征帧序列,以及,所述模仿音频信号对应的第二特征帧序列;
将所述第二特征帧序列与所述第一特征帧序列进行帧对齐,生成帧对齐序列;
检测所述第一特征帧序列对应的第一音节起始点序列,以及,所述第二特征帧序列对应的第二音节起始点序列;
基于所述第一音节起始点序列以及所述第二音节起始点序列,对所述帧对齐序列进行调整;
采用调整后的帧对齐序列对所述模仿音频信号进行音频波形重建,并根据重建得到的音频波形数据生成用于输出的目标音频。
可选地,所述检测所述第一特征帧序列对应的第一音节起始点序列,以及,所述第二特征帧序列对应的第二音节起始点序列,包括:
分别将所述第一特征帧序列以及所述第二特征帧序列输入已训练的深度神经网络模型,并获取所述深度神经网络模型分别输出的所述第一特征帧序列及所述第二特征帧序列中各帧为音节起始点的概率;
根据所述第一特征帧序列中各帧为音节起始点的概率,生成第一音节起始点概率曲线;
根据所述第二特征帧序列中各帧为音节起始点的概率,生成第二音节起始点概率曲线;
对所述第一音节起始点概率曲线进行峰值检测,并根据检测出的峰值结果生成第一音节起始点序列;
对所述第二音节起始点概率曲线进行峰值检测,并根据检测出的峰值结果生成第二音节起始点序列。
可选地,所述基于所述第一音节起始点序列以及所述第二音节起始点序列,对所述帧对齐序列进行调整,包括:
遍历所述第一音节起始点序列中各音节起始点,获取该音节起始点的目标帧号;
根据所述帧对齐序列,确定与所述目标帧号对齐的对齐目标帧号;
从所述第二音节起始点序列中查找所述对齐目标帧号,以确定与所述对齐目标帧号距离最近的目标音节起始点;
若所述目标音节起始点所在的帧号与所述对齐目标帧号的距离在预设距离范围内,则将所述帧对齐序列中的所述对齐目标帧号调整为目标音节起始点所在的帧号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州欢聊网络科技有限公司,未经广州欢聊网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911072753.2/2.html,转载请声明来源钻瓜专利网。





