[发明专利]端到端实时语音端点检测神经网络模型、训练方法有效
申请号: | 202110263962.6 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112634882B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 司马华鹏;姚奥;汤毅平 | 申请(专利权)人: | 南京硅基智能科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L19/26;G10L25/87 |
代理公司: | 江苏舜点律师事务所 32319 | 代理人: | 孙丹 |
地址: | 210000 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 端到端 实时 语音 端点 检测 神经网络 模型 训练 方法 | ||
1.一种端到端实时语音端点检测神经网络模型,其特征在于,所述模型至少包括神经网络滤波器、循环神经网络RNN层、多特征融合层;
所述神经网络滤波器至少包括卷积子层,所述卷积子层配置包括,对目标音频信号进行特征提取,以输出所述目标音频信号的第一特征;其中,所述卷积子层是根据带通滤波器幅值建立的,所述带通滤波器幅值由滤波器训练参数进行确定,所述滤波器训练参数是根据预先设置的样本数据训练所得到的;所述第一特征为所述目标音频信号的局部特征,所述第一特征是根据训练得到的所述滤波器训练参数提取的;
所述RNN层配置包括,输入所述第一特征,并至少根据所述第一特征获取所述目标音频信号的第二特征;所述第二特征为所述目标音频信号的局部特征;
所述多特征融合层配置包括,对所述RNN层中的至少一个子层所获取的所述第二特征进行特征融合,以得到所述目标音频信号的表示。
2.根据权利要求1所述的端到端实时语音端点检测神经网络模型,其特征在于,所述滤波器训练参数至少包括带通滤波器低截止频率以及带通滤波器高截止频率。
3.一种端到端实时语音端点检测神经网络模型的训练方法,应用于权利要求1或2所述的端到端实时语音端点检测神经网络模型;其特征在于:
所述方法包括:
根据滤波器训练参数,确定带通滤波器幅值,并根据所述带通滤波器幅值建立卷积子层;
将样本数据中的样本输入值输入至所述端到端实时语音端点检测神经网络模型以得到输出值;
根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值;
调整所述滤波器训练参数,使所述端到端实时语音端点检测神经网络模型的损失值减小;
当所述端到端实时语音端点检测神经网络模型的损失值小于或等于预设阈值时,对应的滤波器训练参数确定为滤波器训练参数输出值。
4.根据权利要求3所述的一种端到端实时语音端点检测神经网络模型的训练方法,其特征在于,所述根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值,包括:
根据所述输出值、所述样本输出值以及预设的神经网络滤波器损失函数确定所述模型的第一损失值;其中,所述神经网络滤波器损失函数为交叉熵函数。
5.根据权利要求3所述的一种端到端实时语音端点检测神经网络模型的训练方法,其特征在于,还包括以下步骤:
所述的调整所述滤波器训练参数,使所述端到端实时语音端点检测神经网络模型的损失值减小,其调整方式为,逐次迭代调整所述滤波器训练参数,使所述端到端实时语音端点检测神经网络模型的损失值逐次减小。
6.根据权利要求3所述的端到端实时语音端点检测神经网络模型的训练方法,其特征在于,所述训练方法还包括:
根据预设的人声音频数据和噪声音频数据以生成所述样本数据,其中,所述样本数据至少包括所述人声音频数据、所述噪声音频数据以及混合数据;所述混合数据是所述人声音频数据与所述噪声音频数据按照预设的信噪比进行混合处理后得到的。
7.根据权利要求3所述的端到端实时语音端点检测神经网络模型的训练方法,其特征在于,所述根据所述带通滤波器幅值建立所述卷积子层,还包括:
根据所述带通滤波器幅值建立带通滤波器;
根据所述带通滤波器与预设的窗函数,对所述带通滤波器进行加窗处理,以建立所述卷积子层;所述窗函数包括以下之一:Hann函数、Balckman函数、Kaiser函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京硅基智能科技有限公司,未经南京硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110263962.6/1.html,转载请声明来源钻瓜专利网。