[发明专利]一种基于注意力机制与扰动感知的声音分离方法有效
申请号: | 202110519845.1 | 申请日: | 2021-05-13 |
公开(公告)号: | CN113380262B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 舒禹程;肖斌;李伟生 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L19/26 | 分类号: | G10L19/26;G10L21/0272;G10L21/04;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 卢胜斌 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 扰动 感知 声音 分离 方法 | ||
1.一种基于注意力机制与扰动感知的声音分离方法,其特征在于,包括以下步骤:
S1、获取声音信号数据集,对该数据集的声音信号进行预处理得到混合声音信号,随后将混合声音信号划分为训练集、验证集;
S2、将训练集中的混合声音信号输入单通道语音分离网络模型,在交叉熵损失函数的指导下输出得到分离后的独立源信号;单通道语音分离网络模型包括编码器网络、解码器网络以及注意力融合的掩模分离模块,单通道语音分离网络模型将混合声音信号分离得到独立声音信号的过程包括以下步骤:
编码器网络对输入的混合声音信号进行特征提取及降维,得到混合声音信号的深度特征;
注意力融合的掩模分离模块对深度特征进行过滤,并生成独立源信号掩膜和噪音掩膜;
令深度特征分别与每个掩膜进行向量间的逐元素相乘,得到每个独立源信号的特征以及噪音信号特征;
解码器网络对根据掩膜得到的每个信号特征进行数据重构,得到分离的每个独立信号;
S3、利用验证集数据验证每次单通道语音分离网络模型的正确率,并且保存正确率最高时的网络参数;
S4、将待分离的混合声音信号数据输入单通道语音分离网络模型,即可得到分割后的独立源声音信号。
2.根据权利要求1所述的一种基于注意力机制与扰动感知的声音分离方法,其特征在于,对声音信号进行预处理得到混合声音信号具体包括:
将多份独立源声音信号进行裁剪,每份信号裁剪后得到多段时长为N秒的声音信号切片;
将每份裁剪后的声音信号进行重采样,采样频率为8000hz;
将采样后的声音信号进行归一化处理;
将归一化处理后属于不同独立源信号的声音片段进行逐位相加,随后与一段时长为N秒、采样率为8000hz的噪声片段再次逐位相加,得到最终的混合声音信号。
3.根据权利要求1所述的一种基于注意力机制与扰动感知的声音分离方法,其特征在于,编码器网络包括4个级联的特征提取模块,即除第一个特征模块以混合声音信号作为输入外其他特征提取模块均以上一个特征模块的输出作为输入,每个特征分模块包括一个卷积核为1×w′×C的卷积操作、一个批标准化层以及一个ReLU激活函数,混合声音信号原始通道为1,四个特征提取模块按照级联顺序每个的通道数依次为16、32、64、128;其中,w′为输入特征提取模块信号的长度,C为当前信号的通道数。
4.根据权利要求1所述的一种基于注意力机制与扰动感知的声音分离方法,其特征在于,注意力融合的掩模分离模块对深度特征进行过滤包括:
对输入的深入特征使用全局平均池化进行基于通道上的压缩,得到一个1×1×C的压缩特征,随后依次经过卷积核大小为1×1的卷积操作、ReLU激活函数以及同样卷积核大小的卷积操作,将得到的激活特征使用sigmoid函数进行数值约束得到维度为1×1×C的特征图,其中C为当前信号的通道数;
将得到的维度为1×1×C的特征图与输入的深度特征相乘得到基于通道注意力过滤的深度特征;
使用大小为1×w的卷积核对深度特征;
进行基于空间的特征压缩并使用ReLU激活函数进行激活处理,随后将得到的激活特征依次经过卷积核大小为1×1的卷积操作、ReLU激活函数以及sigmoid函数得到维度为1×w×1的特征图;
将得到的维度为1×w×1的特征图与输入的深度特征相乘得到基于空间注意力过滤的深度特征;
将基于通道注意力过滤的深度特征和基于空间注意力过滤的深度特征进行拼接,得到大小为1×w×2*C的拼接特征,随后使用大小为1×1的卷积核进行卷积融合操作,得到注意力融合特征。
5.根据权利要求4所述的一种基于注意力机制与扰动感知的声音分离方法,其特征在于,生成独立源信号掩膜和噪音掩膜,即对得到的1×w×C的注意力融合特征使用大小为1×1的卷积进行通道压缩,随后使用sigmoid函数得到大小为1×w×1的信号掩模。
6.根据权利要求1所述的一种基于注意力机制与扰动感知的声音分离方法,其特征在于,解码器网络包括4个级联的信号重构模块,深度特征分别与每个掩膜进行向量间的逐元素相乘得到的每个独立源信号的特征以及噪音信号特征作为第一个信号重构模块的输入,其他信号重构模块均以上一个特征模块的输出作为输入,每个特征提取模块包括上采样操作、一个卷积核大小为1×1×C的卷积操作、一个批标准化层以及一个ReLU激活函数,其中C为当前模块设计的通道数大小,第一个信号重构模块的输入信号通道数为128,信号重构模块依照级联顺序每个的通道数C依次为64、32、16、1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110519845.1/1.html,转载请声明来源钻瓜专利网。