[发明专利]一种层级融合的音频数据增强方法及系统在审

专利信息
申请号: 202210458199.7 申请日: 2022-04-28
公开(公告)号: CN114937459A 公开(公告)日: 2022-08-23
发明(设计)人: 武星 申请(专利权)人: 上海大学
主分类号: G10L21/02 分类号: G10L21/02;G10L21/0224;G10L21/0232;G10L25/03
代理公司: 上海申汇专利代理有限公司 31001 代理人: 翁若莹;柏子雵
地址: 200436*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 层级 融合 音频 数据 增强 方法 系统
【权利要求书】:

1.一种层级融合的音频数据增强方法,其特征在于,包括以下步骤:

a)采集原始信号,并以数字信号的形式保存为音频X;

b)对音频X进行时域信号压扩,得到压扩后的音频Xo

对音频X进行时域信号压扩时,采用波形相似重叠叠加算法,在保留谐波信号的同时引入一系列的失真,从而得到压扩后的音频Xo

c)将压扩后的音频Xo与原始音频X混合,组成新的训练集Sx

d)对训练集Sx中的每一条音频进行频率提取,得到频率f;

e)对每一条音频进行基频提取,获得基频fo,def

d)对基频fo,def扰动添加,构成基频集Sf

对于基频fo,def添加扰动,分别加入±20,±40和±60的频率偏移量,得到的扰动后基频fo与原始基频fo,def共同组成基频集Sf

e)使用基频集Sf对频率进行归一化,构建频率集SF

使用基频集Sf对频率特征进行归一化操作,对于当前音频对应的频谱图,使用步骤d)提取每一帧的基频,并统计出基频的中位数,记作fo,audio,再分别使用基频集Sf中的每个值对梅尔尺度下的频率值进行标准化:

fnorm=forig-(fo,audio-fo,def)

式中,forig表示梅尔尺度下的频率值,fo,audio表示当前音频中所有帧的基频的中位数,fo,def表示默认基频;

经过归一化得到的fnorm组成了频率集SF

f)使用频率集SF进行声学特征提取

以频率集SF中的元素为基准,对信号做快速傅里叶变换转换到频域上的能量分布,不同的能量分布能代表不同语音的特性。

2.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,将原始音频X中的任意一个音频帧定义为第一个音频帧,则步骤b)具体包括以下步骤:

在第一个音频帧的左右范围内选取第二个音频帧,第二个音频帧的相位参数与第一个音频帧相位对齐;

在范围[-Δmax,Δmax]内查找第三个音频帧,Δmax大小设为半个音频周期,然后计算范围内帧与帧之间的互相关系数,选择与第二个音频帧相似度最高的作为第三个音频帧;

将第一个音频帧、第二个音频帧以及第三个音频帧以相同步长进行拼接,重叠部分做相加处理。

3.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,在步骤c)中,为压扩后的音频Xo添加与原始音频X相同的标注,并添加到原始的数据集中,共同组成新的训练集Sx

4.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,步骤d)中,对训练集Sx中的音频进行分帧、加窗和梅尔尺度变换,提取音频频率特征,从而获得频率f。

5.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,步骤e)中,使用SWIPE算法进行基频估计,通过峰谷距衡量幅度谱在每个频率f的整数倍处的峰值相对于紧邻它的两个谷值的显著性,该函数定义为:

式中:dk(f)表示峰谷距;k=1,2,...,n,表示倍数,|X(kf)|表示幅度谱在频率f的k倍处的峰值;

显著度由各次谐波的平均峰谷距表示,如下式所示:

基于显著度最终估计出的基频表示为fo,def,该基频fo,def用于后续的特征归一化。

6.一种层级融合的音频数据增强系统,其特征在于,包括:

信号压扩单元:用于对音频X进行时域信号压扩,得到压扩后的音频Xo,其中,对音频X进行时域信号压扩时,采用波形相似重叠叠加算法,在保留谐波信号的同时引入一系列的失真,从而得到压扩后的音频Xo

训练集构建单元:用于将压扩后的音频Xo与原始音频X混合,组成新的训练集Sx

频率提取单元:用于提取训练集Sx中的每一条音频的频率,得到频率f;

基频提取单元:用于对每一条音频进行基频提取,获得基频fo,def

基频扰动添加单元:用于对基频fo,def扰动添加,构成基频集Sf,其中,对于基频fo,def添加扰动时,分别加入±20,±40和±60的频率偏移量,得到的扰动后基频fo与原始基频fo,def共同组成基频集Sf

频率归一化单元:用于使用基频集Sf对频率进行归一化,构建频率集SF,其中,使用基频集Sf对频率特征进行归一化操作时,对于当前音频对应的频谱图,使用步骤d)提取每一帧的基频,并统计出基频的中位数,记作fo,audio,再分别使用基频集Sf中的每个值对梅尔尺度下的频率值进行标准化:

fnorm=forig-(fo,audio-fo,def)

式中,forig表示梅尔尺度下的频率值,fo,audio表示当前音频中所有帧的基频的中位数,fo,def表示默认基频;经过归一化得到的fnorm组成了频率集SF

声学特征提取单元:用于使用频率集SF进行声学特征提取,提取时,以频率集SF中的元素为基准对信号做快速傅里叶变换转换到频域上的能量分布,不同的能量分布能代表不同语音的特性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210458199.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top