[发明专利]基于局部注意力机制的语音增强方法、装置及介质有效
| 申请号: | 202010117498.5 | 申请日: | 2020-02-25 |
| 公开(公告)号: | CN111341331B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 方泽煌;康元勋 | 申请(专利权)人: | 厦门亿联网络技术股份有限公司 |
| 主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0208 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;麦小婵 |
| 地址: | 361009 福建省厦门市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 局部 注意力 机制 语音 增强 方法 装置 介质 | ||
1.一种基于局部注意力机制的语音增强方法,其特征在于,包括:
采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音;
对所述待增强语音进行特征提取,得到所述待增强语音的多维特征,包括:对所述待增强语音进行加窗分帧处理并进行短傅里叶变换,并计算每帧待增强语音的频域对数谱;将所述每帧待增强语音的频域对数谱均分为22个子频带,对每一子频带进行DCT变换得到22维特征;将所述22维特征中的每一当前帧与所述当前帧的前两帧和所述当前帧的后两帧分别进行差异比较,并根据所述当前帧的特征得到36维特征;将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征;将所述22维特征、所述36维特征和所述4维特征进行累加,得到所述待增强语音的62维特征;
建立基于局部注意力机制的RNN模型,并将所述多维特征输入至所述RNN模型;
对所述RNN模型进行训练,得到语音增强模型;
根据所述语音增强模型对所述多维特征进行计算得到时频掩蔽因子,根据所述时频掩蔽因子以及所述待增强语音的频谱,得到所述待增强语音的增强语音频谱;
根据所述增强语音频谱得到语音增强波形。
2.如权利要求1所述的基于局部注意力机制的语音增强方法,其特征在于,所述待处理语音包括纯净语音和噪声;所述采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音,具体为:
采集纯净语音以及不同场景的原始噪声,根据预设的筛选规则对所述原始噪声进行筛选,得到常规噪声;对所述纯净语音和所述常规噪声进行语音合成处理,得到待增强语音。
3.如权利要求1所述的基于局部注意力机制的语音增强方法,其特征在于,所述对所述RNN模型进行训练,得到语音增强模型,具体为:
采用Adam训练策略和loss函数对所述RNN模型进行训练,得到语音增强模型。
4.如权利要求1所述的基于局部注意力机制的语音增强方法,其特征在于,所述根据所述时频掩蔽因子以及所述待增强语音的频谱,得到所述待增强语音的增强语音频谱,具体为:
将所述时频掩蔽因子与所述待增强语音的频谱进行相乘运算,得到所述待增强语音的增强语音频谱。
5.如权利要求1所述的基于局部注意力机制的语音增强方法,其特征在于,所述根据所述增强语音频谱得到语音增强波形,具体为:
对所述增强语音频谱进行逆傅里叶变换,得到所述待增强语音的语音增强波形。
6.一种基于局部注意力机制的语音增强系统,其特征在于,包括语音合成模块、特征提取模块、特征输入模块、训练模块、计算模块和语音增强模块;
所述语音合成模块,用于采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音;
所述特征提取模块,用于对所述待增强语音进行特征提取,得到所述待增强语音的多维特征;具体用于:对所述待增强语音进行加窗分帧处理并进行短傅里叶变换,并计算每帧待增强语音的频域对数谱;将所述每帧待增强语音的频域对数谱均分为22个子频带,对每一子频带进行DCT变换得到22维特征;将所述22维特征中的每一当前帧与所述当前帧的前两帧和所述当前帧的后两帧分别进行差异比较,并根据所述当前帧的特征得到36维特征;将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征;将所述22维特征、所述36维特征和所述4维特征进行累加,得到所述待增强语音的62维特征;
所述特征输入模块,用于基于局部注意力机制建立RNN模型,并将所述多维特征输入至所述RNN模型;
所述训练模块,用于对所述RNN模型进行训练,得到语音增强模型;
所述计算模块,用于根据所述语音增强模型对所述多维特征进行计算得到时频掩蔽因子,根据所述时频掩蔽因子以及所述待增强语音的频谱,得到所述待增强语音的增强语音频谱;
所述语音增强模块,用于根据所述增强语音频谱得到语音增强波形。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5中任意一项所述的基于局部注意力机制的语音增强方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门亿联网络技术股份有限公司,未经厦门亿联网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010117498.5/1.html,转载请声明来源钻瓜专利网。





