[发明专利]端到端实时语音端点检测神经网络模型、训练方法有效

申请号：	202110263962.6	申请日：	2021-03-11
公开（公告）号：	CN112634882B	公开（公告）日：	2021-06-04
发明（设计）人：	司马华鹏;姚奥;汤毅平	申请（专利权）人：	南京硅基智能科技有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/16;G10L19/26;G10L25/87
代理公司：	江苏舜点律师事务所 32319	代理人：	孙丹
地址：	210000 江苏省南京市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	端到端实时语音端点检测神经网络模型训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种端到端实时语音端点检测神经网络模型，其特征在于，所述模型至少包括神经网络滤波器、循环神经网络RNN层、多特征融合层；

所述神经网络滤波器至少包括卷积子层，所述卷积子层配置包括，对目标音频信号进行特征提取，以输出所述目标音频信号的第一特征；其中，所述卷积子层是根据带通滤波器幅值建立的，所述带通滤波器幅值由滤波器训练参数进行确定，所述滤波器训练参数是根据预先设置的样本数据训练所得到的；所述第一特征为所述目标音频信号的局部特征，所述第一特征是根据训练得到的所述滤波器训练参数提取的；

所述RNN层配置包括，输入所述第一特征，并至少根据所述第一特征获取所述目标音频信号的第二特征；所述第二特征为所述目标音频信号的局部特征；

所述多特征融合层配置包括，对所述RNN层中的至少一个子层所获取的所述第二特征进行特征融合，以得到所述目标音频信号的表示。

2.根据权利要求1所述的端到端实时语音端点检测神经网络模型，其特征在于，所述滤波器训练参数至少包括带通滤波器低截止频率以及带通滤波器高截止频率。

3.一种端到端实时语音端点检测神经网络模型的训练方法，应用于权利要求1或2所述的端到端实时语音端点检测神经网络模型；其特征在于：

所述方法包括：

根据滤波器训练参数，确定带通滤波器幅值，并根据所述带通滤波器幅值建立卷积子层；

将样本数据中的样本输入值输入至所述端到端实时语音端点检测神经网络模型以得到输出值；

根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值；

调整所述滤波器训练参数，使所述端到端实时语音端点检测神经网络模型的损失值减小；

当所述端到端实时语音端点检测神经网络模型的损失值小于或等于预设阈值时，对应的滤波器训练参数确定为滤波器训练参数输出值。

4.根据权利要求3所述的一种端到端实时语音端点检测神经网络模型的训练方法，其特征在于，所述根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值，包括：

根据所述输出值、所述样本输出值以及预设的神经网络滤波器损失函数确定所述模型的第一损失值；其中，所述神经网络滤波器损失函数为交叉熵函数。