[发明专利]一种用于端到端时域声源分离系统的参数化听觉滤波器组在审
申请号: | 202110569382.X | 申请日: | 2021-05-25 |
公开(公告)号: | CN113393850A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 陈克安;李晗 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G10L19/02 | 分类号: | G10L19/02;G10L19/26;G10L21/0224;G10L21/0272 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 陈星 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 端到端 时域 声源 分离 系统 参数 听觉 滤波器 | ||
1.一种用于端到端时域声源分离系统的参数化听觉滤波器组,其特征在于:采用Gammatone滤波器,滤波器的数量N不小于32;滤波器时域脉冲响应由Gamma分布调制的纯音:
g(t)=Atp-1e-2πbtcos(2πfct+φ)
其中p为阶数,fc为中心频率,b为带宽,φ为相位,A为幅度,通过阶数p与带宽b确定。
2.根据权利要求1所述一种用于端到端时域声源分离系统的参数化听觉滤波器组,其特征在于:幅度取值为
3.利用权利要求1所述参数化听觉滤波器组构建端到端时域声源分离系统的方法,其特征在于:包括以下步骤:
步骤1:依据编码器-分离器-解码器的框架创建时域分离网络;其中编码器通过一维卷积层实现,其滤波器组采用所述参数化听觉滤波器组;分离器用于估计声源的掩模;解码器为一维反卷积层;来自分离器的每个声源的掩模估计值与来自编码器的混合声的二维表达相乘,之后能够通过解码器合成分离声源的时域信号;
步骤2:根据人耳听觉系统的先验知识对各个滤波器的参数集进行初始化,参数化听觉滤波器组中的参数集在网络训练过程中可变:
(1)各滤波器的阶数pi都初始化设定为4,对应人耳听觉系统中滤波器阶数的平均拟合值;
(2)各滤波器的中心频率初始化均匀分布在等效矩形带宽ERB尺度上,其中从线性频率到ERB尺度的映射为
(3)各滤波器的初始化带宽bi由和阶数pi决定
(4)各滤波器的初始化相位φi设定为以对齐音调的峰值与Gamma包络的峰值;
步骤3:根据分离任务选择不同声源创建数据集,并利用数据集训练时域分离网络,获得端到端时域声源分离系统。
4.根据权利要求3所述一种构建端到端时域声源分离系统的方法,其特征在于:所述分离器采用基于深度卷积的网络结构,包含多个具有不同扩张因子的带洞卷积模块,每个带洞卷积模块中又包含卷积层、整流层、归一化层、深度卷积层以及留数和跳跃结构。
5.根据权利要求3所述一种构建端到端时域声源分离系统的方法,其特征在于:训练时域分离网络时,以最小化真实声源和估计声源之间的尺度不变信号失真比作为训练目标,通过Adam优化器训练网络,直到分离性能不再提高,获得端到端时域声源分离系统。
6.一种端到端时域声源分离系统,其特征在于:利用权利要求3所述方法构建得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110569382.X/1.html,转载请声明来源钻瓜专利网。