[发明专利]一种层级融合的音频数据增强方法及系统在审
申请号: | 202210458199.7 | 申请日: | 2022-04-28 |
公开(公告)号: | CN114937459A | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 武星 | 申请(专利权)人: | 上海大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0224;G10L21/0232;G10L25/03 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;柏子雵 |
地址: | 200436*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 层级 融合 音频 数据 增强 方法 系统 | ||
1.一种层级融合的音频数据增强方法,其特征在于,包括以下步骤:
a)采集原始信号,并以数字信号的形式保存为音频X;
b)对音频X进行时域信号压扩,得到压扩后的音频Xo:
对音频X进行时域信号压扩时,采用波形相似重叠叠加算法,在保留谐波信号的同时引入一系列的失真,从而得到压扩后的音频Xo;
c)将压扩后的音频Xo与原始音频X混合,组成新的训练集Sx;
d)对训练集Sx中的每一条音频进行频率提取,得到频率f;
e)对每一条音频进行基频提取,获得基频fo,def;
d)对基频fo,def扰动添加,构成基频集Sf:
对于基频fo,def添加扰动,分别加入±20,±40和±60的频率偏移量,得到的扰动后基频fo与原始基频fo,def共同组成基频集Sf;
e)使用基频集Sf对频率进行归一化,构建频率集SF:
使用基频集Sf对频率特征进行归一化操作,对于当前音频对应的频谱图,使用步骤d)提取每一帧的基频,并统计出基频的中位数,记作fo,audio,再分别使用基频集Sf中的每个值对梅尔尺度下的频率值进行标准化:
fnorm=forig-(fo,audio-fo,def)
式中,forig表示梅尔尺度下的频率值,fo,audio表示当前音频中所有帧的基频的中位数,fo,def表示默认基频;
经过归一化得到的fnorm组成了频率集SF;
f)使用频率集SF进行声学特征提取
以频率集SF中的元素为基准,对信号做快速傅里叶变换转换到频域上的能量分布,不同的能量分布能代表不同语音的特性。
2.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,将原始音频X中的任意一个音频帧定义为第一个音频帧,则步骤b)具体包括以下步骤:
在第一个音频帧的左右范围内选取第二个音频帧,第二个音频帧的相位参数与第一个音频帧相位对齐;
在范围[-Δmax,Δmax]内查找第三个音频帧,Δmax大小设为半个音频周期,然后计算范围内帧与帧之间的互相关系数,选择与第二个音频帧相似度最高的作为第三个音频帧;
将第一个音频帧、第二个音频帧以及第三个音频帧以相同步长进行拼接,重叠部分做相加处理。
3.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,在步骤c)中,为压扩后的音频Xo添加与原始音频X相同的标注,并添加到原始的数据集中,共同组成新的训练集Sx。
4.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,步骤d)中,对训练集Sx中的音频进行分帧、加窗和梅尔尺度变换,提取音频频率特征,从而获得频率f。
5.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,步骤e)中,使用SWIPE算法进行基频估计,通过峰谷距衡量幅度谱在每个频率f的整数倍处的峰值相对于紧邻它的两个谷值的显著性,该函数定义为:
式中:dk(f)表示峰谷距;k=1,2,...,n,表示倍数,|X(kf)|表示幅度谱在频率f的k倍处的峰值;
显著度由各次谐波的平均峰谷距表示,如下式所示:
基于显著度最终估计出的基频表示为fo,def,该基频fo,def用于后续的特征归一化。
6.一种层级融合的音频数据增强系统,其特征在于,包括:
信号压扩单元:用于对音频X进行时域信号压扩,得到压扩后的音频Xo,其中,对音频X进行时域信号压扩时,采用波形相似重叠叠加算法,在保留谐波信号的同时引入一系列的失真,从而得到压扩后的音频Xo;
训练集构建单元:用于将压扩后的音频Xo与原始音频X混合,组成新的训练集Sx;
频率提取单元:用于提取训练集Sx中的每一条音频的频率,得到频率f;
基频提取单元:用于对每一条音频进行基频提取,获得基频fo,def;
基频扰动添加单元:用于对基频fo,def扰动添加,构成基频集Sf,其中,对于基频fo,def添加扰动时,分别加入±20,±40和±60的频率偏移量,得到的扰动后基频fo与原始基频fo,def共同组成基频集Sf;
频率归一化单元:用于使用基频集Sf对频率进行归一化,构建频率集SF,其中,使用基频集Sf对频率特征进行归一化操作时,对于当前音频对应的频谱图,使用步骤d)提取每一帧的基频,并统计出基频的中位数,记作fo,audio,再分别使用基频集Sf中的每个值对梅尔尺度下的频率值进行标准化:
fnorm=forig-(fo,audio-fo,def)
式中,forig表示梅尔尺度下的频率值,fo,audio表示当前音频中所有帧的基频的中位数,fo,def表示默认基频;经过归一化得到的fnorm组成了频率集SF
声学特征提取单元:用于使用频率集SF进行声学特征提取,提取时,以频率集SF中的元素为基准对信号做快速傅里叶变换转换到频域上的能量分布,不同的能量分布能代表不同语音的特性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210458199.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于取放载车板的装置
- 下一篇:一种医疗器械用精准喷码设备及其喷码方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置