[发明专利]一种语音增强网络模型、单通道的语音增强方法及系统在审
| 申请号: | 202011283692.7 | 申请日: | 2020-11-17 |
| 公开(公告)号: | CN112509593A | 公开(公告)日: | 2021-03-16 |
| 发明(设计)人: | 康洪涛;欧阳鹏 | 申请(专利权)人: | 北京清微智能科技有限公司 |
| 主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L19/008;G10L19/02;G10L25/30 |
| 代理公司: | 北京索睿邦知识产权代理有限公司 11679 | 代理人: | 李根 |
| 地址: | 100192 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 增强 网络 模型 通道 方法 系统 | ||
1.一种单通道的语音增强方法,其特征在于,该方法通过语音增强网络模型实现;
所述语音增强网络模型包括:
一个分析层,其配置为根据具有多个采样点的带噪音采样数据获取初始维度的采样语音时域特征;
一个编码器,其设置于所述分析层的输出端且从所述分析层接收所述初始维度的采样语音时域特征;所述编码器具有多层的门控卷积层;所述编码器通过多层的门控卷积层识别所述初始维度的采样语音时域特征,获取采样语音时域特征的第一识别权重值;
所述编码器的门控卷积层具有两个数据流;所述两个数据流对应两个残差连接;所述两个残差连接分别为门控残差连接和非门控残差连接;
一个时间卷积模块,其设置于所述编码器的输出端且能够从所述编码器接收所述第一识别权重值;所述时间卷积模块通过空洞卷积所述第一识别权重值获取第二识别权重值;
一个解码器,其设置于所述时间卷积模块的输出端且接收所述第二识别权重值;所述解码器具有多层的门控反卷积层;所述多层的门控反卷积层连接所述门控残差连接和非门控残差连接;所述解码器反卷积所述第二识别权重值获取具有所述初始维度的增强后语音时域特征;以及
一个合成层,其设置于所述解码器的输出端且从所述解码器获取增强后语音时域特征;所述合成层根据所述增强后语音时域特征获取增强后的语音数据。
2.根据权利要求1所述的语音增强方法,其特征在于,所述分析层为一维卷积层;所述分析层通过所述一维卷积层实现准短时加窗傅里叶变换;所述一维卷积层的初始权重值根据所述准短时加窗傅里叶变换的实部和虚部初始化;
所述分析层通过所述一维卷积层卷积所述带噪音采样数据,获取初始维度的采样语音时域特征。
3.根据权利要求2所述的语音增强方法,其特征在于,所述合成层为一维反卷积层;所述合成层通过所述一维反卷积层实现准逆短时加窗傅里叶变换;所述一维反卷积层的初始权重值根据所述准逆短时加窗傅里叶变换的实部和虚部初始化;
所述合成层通过所述一维反卷积层卷积所述增强后语音时域特征,获取增强后的语音数据。
4.根据权利要求2所述的语音增强方法,其特征在于,所述编码器中多层的门控卷积层为二维的门控卷积层;在每层门控卷积层间包括依次处理的批量归一化层和激活函数层;
所述解码器中多层的门控反卷积层为二维的门控反卷积层;在每两层门控反卷积层间设置一个随机失活层;在每层门控反卷积层间包括依次处理的批量归一化层和激活函数层。
5.根据权利要求1所述的语音增强方法,其特征在于,所述时间卷积模块采用一维卷积层;所述时间卷积模块由3个空洞模块组成;每个空洞模块由6个残差块依次连接组成;所述残差块的深度卷积层采用了空洞卷积;6个残差块的深度卷积层的扩张率依次为1,2,4,8,16,32;
所述时间卷积模块通过所述3个空洞模块空洞卷积所述第一识别权重值获取第二识别权重值。
6.根据权利要求5所述的语音增强方法,其特征在于,所述6个残差块中的每个残差块包括:输入卷积层、深度卷积层和输出卷积层;在输入卷积层和深度卷积层后加入依次处理的批量归一化层和激活函数层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清微智能科技有限公司,未经北京清微智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011283692.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电线电缆专用照明节能设备
- 下一篇:硬软胶成型胶辊设备





