[发明专利]一种基于U型网络和音频指纹的音乐与人声分离方法有效
申请号: | 202110403350.2 | 申请日: | 2021-04-15 |
公开(公告)号: | CN113129920B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 汤步洲;刘凯隆;刘超 | 申请(专利权)人: | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/028;G10L21/0308 |
代理公司: | 深圳市添源知识产权代理事务所(普通合伙) 44451 | 代理人: | 于标 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 音频 指纹 音乐 人声 分离 方法 | ||
1.一种基于U型网络和音频指纹的音乐与人声分离方法,其特征在于,包括如下步骤:
步骤1:将混合音频输入已经训练好的音乐人声分离模型,得到与人声分离的伴奏音频;
步骤2:采用指纹提取算法提取出步骤1得到的伴奏音频中的音频指纹;
步骤3:将步骤2得到的音频指纹送入音频指纹数据库中,检索出与所述指纹匹配的歌曲以及时间点offset;
步骤4:将步骤3检索得到的匹配歌曲进行音量的调整,具体是计算步骤1得到的伴奏音频的平均音量,然后将检索得到的匹配歌曲的音量调至平均音量;
步骤5:对匹配歌曲时间点offset前后一段时间内的音频进行采样,得到一段音频波形;
步骤6:将所述音频波形与步骤1得到的伴奏音频的波形进行比较,进一步调整所述音频波形;
步骤7:将所述混合音频减去步骤6调整后的音频波形,最终得到纯净的人声。
2.根据权利要求1所述的一种基于U型网络和音频指纹的音乐与人声分离方法,其特征在于,所述音乐人声分离模型包括编码器、解码器以及起连接作用的中间层,所述音乐人声分离模型对混合音频进行分离得到伴奏音频的具体步骤包括:
步骤11:对所述混合音频进行采样得到采样序列;
步骤12:利用编码器对所述采样序列进行编码,提取所述采样序列的深层特征向量;
步骤13:利用解码器对步骤12得到的深层特征向量进行解码,得到与人声分离的伴奏音频。
3.根据权利要求2所述的一种基于U型网络和音频指纹的音乐与人声分离方法,其特征在于,所述编码器是一个时序卷积残差编码单元,由一个一维卷积层,一个非线性转换函数和第一残差模块组成,步骤12所述编码器对所述采样序列进行编码,提取所述采样序列的深层特征向量,具体为:
步骤121:所述一维卷积层通过一组大小为K的一维卷积滤波器对所述采样序列进行卷积操作,获取局部特征向量;
步骤122:利用所述非线性转换函数对所述局部特征向量进行转换,得到转换后的第二特征向量;
步骤123:利用所述第一残差模块对第二特征向量进行深层特征提取,得到所述采样序列的深层特征向量。
4.根据权利要求3所述的一种基于U型网络和音频指纹的音乐与人声分离方法,其特征在于,所述解码器是一个时序卷积残差解码单元,由一个一维反卷积层,一个非线性转换函数和第二残差模块组成,所述解码器对所述采样序列进行解码,实现音乐与人声的分离,具体为:
步骤131:所述一维反卷积层通过一组大小为K的一维反卷积滤波器对编码器提取的深层特征向量进行反卷积操作,得到恢复后的原始特征向量;
步骤132:利用所述非线性转换函数对步骤131恢复后的原始特征向量进行转换,得到第三特征向量;
步骤133:利用所述第二残差模块对第三特征向量进一步恢复成分离的人声和伴奏音频。
5.根据权利要求4所述的一种基于U型网络和音频指纹的音乐与人声分离方法,其特征在于,所述第一残差模块和所述第二残差模块结构相同,均包括一个批规范化层、一个非线性转换函数和一个一维卷积层,所述第一残差模块和所述第二残差模块的实现步骤为:
第1步:对输入数据经过所述批规范化层进行处理,得到第五特征向量;
第2步:利用所述非线性转换函数对所述第五特征向量进行特征转换,得到第六特征向量;
第3步:将所述第六特征向量经过一维卷积层或一维反卷积层得到第七特征向量;
第4步:将所述第七特征向量与输入数据相加得到最后的输出特征向量。
6.根据权利要求3所述的一种基于U型网络和音频指纹的音乐与人声分离方法,其特征在于,所述非线性转换函数为LeakyReLU激活函数。
7.根据权利要求1所述的一种基于U型网络和音频指纹的音乐与人声分离方法,其特征在于,步骤3中所述音频指纹数据库的搭建方法是提取所有原始音频的指纹进行入库操作,所述原始音频的指纹基于哈希值和时间值的组合,所述哈希值通过哈希函数作用于基点和目标点的频率以及两点之间时间差得到。
8.根据权利要求1所述的一种基于U型网络和音频指纹的音乐与人声分离方法,其特征在于, 步骤3中,“将步骤2得到的音频指纹送入音频指纹数据库中,检索出与所述指纹匹配的歌曲以及时间点offset”具体方法包括:
S31:根据步骤2得到的音频指纹以及对应的第一时间计算指纹的哈希值;
S32:将S31得到的哈希值与音频指纹数据库中的哈希值进行匹配,从音频指纹数据库中获得对应的音频ID值和对应的第二时间,用第二时间减去第一时间得到一个时间差,然后将音频ID值和时间差信息组合起来进行存储;
S33:遍历步骤2得到的所有音频指纹进行S31—S32操作,得到音频ID值和时间差信息组合的集合,对集合中的时间差信息进行统计,找到具有相同的时间差最多的音频ID,即为匹配到的歌曲ID。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),未经哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110403350.2/1.html,转载请声明来源钻瓜专利网。