[发明专利]音频对齐方法、装置、计算机设备以及可读存储介质有效
申请号: | 201811066717.0 | 申请日: | 2018-09-13 |
公开(公告)号: | CN109300484B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 劳振锋 | 申请(专利权)人: | 广州酷狗计算机科技有限公司 |
主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L25/24;G10L25/51;G10L25/90 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 郭晶 |
地址: | 510660 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 对齐 方法 装置 计算机 设备 以及 可读 存储 介质 | ||
本发明公开了一种音频对齐方法、装置、计算机设备以及可读存储介质,属于音频处理技术领域。本发明基于第一音频的第一非周期参数和第一能量参数在第一梅尔频谱上确定出第一目标频谱范围,将第一梅尔倒谱参数对应于第一目标频谱范围的倒谱参数处理,便可得到能够实现对齐的第三梅尔倒谱参数,基于同样方法得到第四梅尔倒谱参数,从而节省确定每个音频的单音或和弦的起始时间,再提取每一个单音或和弦的特征值构建特征值矩阵的步骤,进而采用DTW算法对第三梅尔倒谱参数和第四梅尔倒谱参数进行对齐,从而减少了计算量,减少了时间。
技术领域
本发明涉及数据处理技术领域,特别涉及一种音频对齐方法、装置、计算机设备以及可读存储介质。
背景技术
在音频处理过程中,经常会涉及音频对齐技术。例如,当需要将一个音频文件中的A的音色转换为B的音色时,可以训练一个音频转化模型,为此,可以采集多组音频,每组音频中包括A和B针对同一内容的音频文件,再基于该多组音频,进行模型训练,得到音频转换模型,利用该音频转化模型,可以实现将某个人的音色转换成另一种音色的目的。然而,由于每组音频中的音频文件之间可能存在起始时间、每个字的持续时长等等的不同,因此,需要对音频进行对齐。
目前,所采用的音频对齐的方法包括:结合端点检测算法,确定出两个需要对齐的音频中每个单音或和弦的起始时间,然后基于恒Q变换,提取每个单音或和弦的多个色度特征值,以构成特征值向量,从而构建每个音频特征值矩阵,使用DTW(Dynamic TimeWarping,动态时轴规整)算法规整特征值矩阵,实现音频对齐。
然而,在上述过程中,确定每个单音或和弦的起始时间之后,再构建单音或和弦的特征值向量,计算量较大,需要耗费大量的时间。
发明内容
本发明实施例提供了一种音频对齐方法、装置、计算机设备以及可读存储介质,能够解决目前音频对齐方法中需要构建两个准备对齐的音频的特征值矩阵,导致计算量较大,耗费时间较长的问题。所述技术方案如下:
一方面,提供了一种音频对齐方法,所述方法包括:
获取第一音频的第一梅尔频谱和第二音频的第二梅尔频谱;提取所述第一梅尔频谱的第一梅尔倒谱参数、第一非周期参数和第一能量参数,提取所述第二梅尔频谱的第二梅尔倒谱参数、第二非周期参数和第二能量参数,所述第一音频和所述第二音频对应于相同的内容;基于所述第一非周期参数和所述第一能量参数,在所述第一梅尔频谱上确定第一目标频谱范围,所述第一目标频谱范围内的所述第一非周期参数大于预设非周期参数值,所述第一目标频谱范围内的所述第一能量参数小于预设能量参数值;基于所述第二非周期参数和所述第二能量参数,在所述第二梅尔频谱上确定第二目标频谱范围,所述第二目标频谱范围内的所述第二非周期参数大于所述预设非周期参数值,所述第二目标频谱范围内的所述第二能量参数小于所述预设能量参数值;将所述第一梅尔倒谱参数对应于所述第一目标频谱范围的倒谱参数置0,得到第三梅尔倒谱参数;将所述第二梅尔倒谱参数对应于所述第二目标频谱范围的倒谱参数置0,得到第四梅尔倒谱参数;将所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐;基于所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐的路径,对齐所述第一梅尔频谱和所述第二梅尔频谱。
另一方面,提供了一种音频对齐装置,所述装置包括:
获取模块,用于获取第一音频的第一梅尔频谱和第二音频的第二梅尔频谱;
提取模块,用于提取所述第一梅尔频谱的第一梅尔倒谱参数、第一非周期参数和第一能量参数,还用于提取所述第二梅尔频谱的第二梅尔倒谱参数、第二非周期参数和第二能量参数,所述第一音频和所述第二音频对应于相同的内容;
范围确定模块,用于基于所述第一非周期参数和所述第一能量参数,在所述第一梅尔频谱上确定第一目标频谱范围,还用于基于所述第二非周期参数和所述第二能量参数,在所述第二梅尔频谱上确定第二目标频谱范围;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州酷狗计算机科技有限公司,未经广州酷狗计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811066717.0/2.html,转载请声明来源钻瓜专利网。