[发明专利]一种层级融合的音频数据增强方法及系统在审

申请号：	202210458199.7	申请日：	2022-04-28
公开（公告）号：	CN114937459A	公开（公告）日：	2022-08-23
发明（设计）人：	武星	申请（专利权）人：	上海大学
主分类号：	G10L21/02	分类号：	G10L21/02;G10L21/0224;G10L21/0232;G10L25/03
代理公司：	上海申汇专利代理有限公司 31001	代理人：	翁若莹;柏子雵
地址：	200436***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种层级融合音频数据增强方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种层级融合的音频数据增强方法，其特征在于，包括以下步骤：

a)采集原始信号，并以数字信号的形式保存为音频X；

b)对音频X进行时域信号压扩，得到压扩后的音频X_o：

对音频X进行时域信号压扩时，采用波形相似重叠叠加算法，在保留谐波信号的同时引入一系列的失真，从而得到压扩后的音频X_o；

c)将压扩后的音频X_o与原始音频X混合，组成新的训练集S_x；

d)对训练集S_x中的每一条音频进行频率提取，得到频率f；

e)对每一条音频进行基频提取，获得基频f_o，def；

d)对基频f_o，def扰动添加，构成基频集S_f：

对于基频f_o，def添加扰动，分别加入±20，±40和±60的频率偏移量，得到的扰动后基频f_o与原始基频f_o，def共同组成基频集S_f；

e)使用基频集S_f对频率进行归一化，构建频率集S_F：

使用基频集S_f对频率特征进行归一化操作，对于当前音频对应的频谱图，使用步骤d)提取每一帧的基频，并统计出基频的中位数，记作f_o，audio，再分别使用基频集S_f中的每个值对梅尔尺度下的频率值进行标准化：

f_norm＝f_orig-(f_o，audio-f_o，def)

式中，f_orig表示梅尔尺度下的频率值，f_o，audio表示当前音频中所有帧的基频的中位数，f_o，def表示默认基频；

经过归一化得到的f_norm组成了频率集S_F；

f)使用频率集S_F进行声学特征提取

以频率集S_F中的元素为基准，对信号做快速傅里叶变换转换到频域上的能量分布，不同的能量分布能代表不同语音的特性。

2.如权利要求1所述的一种层级融合的音频数据增强方法，其特征在于，将原始音频X中的任意一个音频帧定义为第一个音频帧，则步骤b)具体包括以下步骤：

在第一个音频帧的左右范围内选取第二个音频帧，第二个音频帧的相位参数与第一个音频帧相位对齐；

在范围[-Δmax，Δmax]内查找第三个音频帧，Δmax大小设为半个音频周期，然后计算范围内帧与帧之间的互相关系数，选择与第二个音频帧相似度最高的作为第三个音频帧；

将第一个音频帧、第二个音频帧以及第三个音频帧以相同步长进行拼接，重叠部分做相加处理。

3.如权利要求1所述的一种层级融合的音频数据增强方法，其特征在于，在步骤c)中，为压扩后的音频X_o添加与原始音频X相同的标注，并添加到原始的数据集中，共同组成新的训练集S_x。

4.如权利要求1所述的一种层级融合的音频数据增强方法，其特征在于，步骤d)中，对训练集S_x中的音频进行分帧、加窗和梅尔尺度变换，提取音频频率特征，从而获得频率f。

5.如权利要求1所述的一种层级融合的音频数据增强方法，其特征在于，步骤e)中，使用SWIPE算法进行基频估计，通过峰谷距衡量幅度谱在每个频率f的整数倍处的峰值相对于紧邻它的两个谷值的显著性，该函数定义为：

式中：d_k(f)表示峰谷距；k＝1，2，...，n，表示倍数，|X(kf)|表示幅度谱在频率f的k倍处的峰值；

显著度由各次谐波的平均峰谷距表示，如下式所示：

基于显著度最终估计出的基频表示为f_o，def，该基频f_o，def用于后续的特征归一化。

6.一种层级融合的音频数据增强系统，其特征在于，包括：

信号压扩单元：用于对音频X进行时域信号压扩，得到压扩后的音频X_o，其中，对音频X进行时域信号压扩时，采用波形相似重叠叠加算法，在保留谐波信号的同时引入一系列的失真，从而得到压扩后的音频X_o；

训练集构建单元：用于将压扩后的音频X_o与原始音频X混合，组成新的训练集S_x；

频率提取单元：用于提取训练集S_x中的每一条音频的频率，得到频率f；

基频提取单元：用于对每一条音频进行基频提取，获得基频f_o，def；

基频扰动添加单元：用于对基频f_o，def扰动添加，构成基频集S_f，其中，对于基频f_o，def添加扰动时，分别加入±20，±40和±60的频率偏移量，得到的扰动后基频f_o与原始基频f_o，def共同组成基频集S_f；

频率归一化单元：用于使用基频集S_f对频率进行归一化，构建频率集S_F，其中，使用基频集S_f对频率特征进行归一化操作时，对于当前音频对应的频谱图，使用步骤d)提取每一帧的基频，并统计出基频的中位数，记作f_o，audio，再分别使用基频集S_f中的每个值对梅尔尺度下的频率值进行标准化：

f_norm＝f_orig-(f_o，audio-f_o，def)

式中，f_orig表示梅尔尺度下的频率值，f_o，audio表示当前音频中所有帧的基频的中位数，f_o，def表示默认基频；经过归一化得到的f_norm组成了频率集S_F

声学特征提取单元：用于使用频率集S_F进行声学特征提取，提取时，以频率集S_F中的元素为基准对信号做快速傅里叶变换转换到频域上的能量分布，不同的能量分布能代表不同语音的特性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海大学，未经上海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210458199.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于取放载车板的装置
下一篇：一种医疗器械用精准喷码设备及其喷码方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种层级融合的音频数据增强方法及系统在审

专利文献下载